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深度 学 习 : Python 教程 (Deep Learning With 
Python) 


Deep Learning With Python: Develop Deep Learning Models on Theano and 
TensorFlow Using Keras 


使 用 Keras、Python、Theano 和 TensorFlow 开发 深度 学 习 模 型 

原 书 网 站 : https://machinelearningmastery.com/deep-learning-with-python/ 
作者 : Jason Brownlee 

译 者 : cnbeining 

来 源 : cnbeining/deep-learning-with-python-cn 


深度 学 习 一 直 很 有 意思 : 虽然 神经 网 络 不 是 新 鲜 事 ， 但 是 直到 最 近 才 开始 迅速 发 
展 。 得 益 于 硬件 、 技 术 和 开源 软件 的 升级 ， 现 在 创建 庞大 的 神经 网 络 已 经 无 比 容 
易 。 


随 着 神经 网 络 变 得 更 大 更 深 ， 机 器 学 习 可 以 解决 很 多 问题 。 我 个 人 近 几 年 的 观察 
是 ， 神 经 网 络 在 很 多 领域 的 效果 是 惊艳 的 ， 和 包括 但 不 限于 物体 识别 、 语 音 识 别 、 分 
类 、 机 器 Š 翻译 等 等 等 等 等 等 等 等 

那么 问题 来 了 : 深度 学 习 应 该 从 哪里 入 门 ? 鉴于 目前 机 器 学 习 没 有 好 的 用 Python 的 
入 门 书 ， 我 撰写 了 本 书 。 


本 书 选 用 Keras : 因为 Keras 简 单 明 了 ， 封 装 了 所 有 的 底层 细节 ， 只 留 下 最 重要 的 
API， 可 以 很 快捷 地 开始 神经 网 络 的 开发 。 


我 希望 我 当初 有 这 样 一 本 入 门 书 : 最 后 祝 您 调 参 愉快 ! 
Jason Brownlee 

写 于 澳大利亚 墨尔本 

2016 


译 者 的 话 


很 有 幸 翻 译本 书 。 


本 书 的 阅读 和 翻译 一 气 呵 成 。 我 尽 可 能 言 简 意 凡 的 翻译 ， 以 便 和 自己 的 稿费 (万 一 
AR) 过 不 去 。 


本 书 的 风格 类 似 fast.ai。 然 而 fast.ai 并 不 使 用 Keras (否则 这 个 译本 就 不 会 出 现 
1) : 如 果 想 用 Keras， 这 里 有 示例 代码 。 


如 果 您 没有 Python 基础 ， 请 阅读 太 雪 峰 的 Python 学 习 教程 。 


本 书 的 Theano 部 分 翻译 并 不 认 丨 ， 因 为 Theano 的 死期 已 定 : 请 使 用 TensorFlow 作 
为 后 端 吧 。 


希望 本 书 可 以 填补 Keras 资 料 的 空白 。 


本 书 的 翻译 得 到 了 很 多 指正 : 没有 他 们 本 书 的 准确 性 将 大 打折 扣 。 如 果 我 忘记 了 您 
的 名 字 ， 请 联系 我 : i@cnbeining.com 在 此 致谢 。 


(名 称 不 分 先后 ) 
msg7086 ` TsukaTsuki ` CAMOE 


Beining 
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部 分 i 
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第 一 章 深度 学 习 入 门 


欢迎 购买 本 书 : 本 书 旨 在 帮助 您 使 用 Python 进行 深度 学 习 ， 包 括 如 何 使 用 Keras 构 
建 和 运行 深度 学 习 模 型 。 本 书 也 包括 深度 学 习 的 技巧 、 示 例 代 码 和 技术 内 容 。 
深度 学 习 的 数学 基础 很 精妙 : 但 是 一 般 用 户 不 需要 完全 了 解数 学 细节 就 可 以 抄 起 键 
总 开始 编程 。 实 用 一 点 讲 ， 深 度 学 习 并 不 复杂 ， 带 来 的 成 效 却 很 客观 。 教 会 你 如 何 
用 深度 学 习 : 这 就 是 本 书 的 目的 。 


1.1 深度 学 习 : 如 何 错误 入 门 
如 果 你 去 问 大 做 们 深度 学 习 如 何 入 门 ， 他 们 会 怎么 说 ? 不 外 乎 : 


e 线性 代数 是 关键 啊 | 

e 你 得 了 解 传统 神经 网 络 才 能 干 啊 | 

e 概 举 论 和 统计 学 是 基础 的 基础 不 是 吗 ? 

e 你 得 先 在 机 器 学 习 的 水 里 扑 腾 几 年 再 来 啊 。 

e 不 是 计算 机 博士 不 要 和 我 说 话 好 吗 | 

e 入 门 挺 简单 的 : 10 年 经 验 应 该 差不多 也 行 有 可 能 就 够 了 吧 。 


总 结 一 下 : 只 有 大 神 才 能 做 深度 学 习 。 
净 TM 扯 淡 ! 


1.2 使 用 Python 进行 深度 学 习 

本 书 准 备 把 传统 的 教学 方式 倒 过 来 : 直接 教 你 怎么 深度 学 习 。 如 果 你 觉得 这 东西 丨 
厉害 我 要 好 好 研究 一 下 ， 再 去 研究 理论 细节 。 本 书 直 接 让 你 用 深度 学 习 写 出 能 跑 好 
东西 。 

我 用 了 不 少 深度 学 习 的 库 : 我 觉得 最 好 的 还 是 基于 Python 的 Keras。Python 有 是 完整 
的 成 熟 语言 ， 可 以 直接 用 于 商业 项 目的 核心 ， 这 点 R 是 比 不 上 的 。 和 Java 比 ， 
Python 有 SciPy 和 scikit-learn 这 些 专业 级 别 的 包 ， 可 以 快速 搭建 平台 。 

Python 的 深度 学 习 库 有 很 多 ， 最 著名 的 是 蒙特 利 尔 大 学 的 Theano (CH? AKU 
纸 ) 和 Google 的 TensorFlow。 这 两 个 库 都 很 简单 ，Keras 都 无 缝 支持 。Keras 把 数 
值 计 算 的 部 分 封装 掉 ， 留 下 搭建 神经 网 络 和 深度 学 习 模 型 的 重点 API。 

本 书 会 带领 你 亲手 构建 神经 网 络 和 深度 学 习 模 型 ， 告 诉 你 如 何在 自己 的 项 目 中 利 
用 。 废 话 少 说 ， 赶 快 开始 : 


1.3 本 书 结构 
本 书 分 3 部 分 : 
e 课程 : 介绍 某 个 神经 网 络 的 某 个 功能 ， 以 及 如 何 使 用 Keras 的 API 写 出 来 


e 项 目 : 将 课 上 的 知识 放 在 一 起 ， 写 一 个 项 目 : 这 个 项 目 可 以 作为 模板 
e 示例 : 直接 可 以 复制 粘贴 的 代码 | 本 书 还 附 赠 了 很 多 代码 ， 在 Github 上 ! 


1.3.1 第 一 部 分 : 课程 和 项 目 


每 节 课 是 独立 的 ， 推 荐 一 次 性 完成 ， 时 长 短 则 20 分 钟 ， 长 则 数 小 时 - 如 果 你 想 仔细 
调 参 数 。 课 程 分 4 块 : 


di Te NS a 


1.3.2 第 二 部 分 : W XAR 


这 部 分 我 们 介绍 Theano、TensorFlow (TF) feKerasi& 34 È > NRtg EB wh 
的 云 服 务 (AWS) 上 用 低廉 的 价格 测试 你 的 网 络 。 分 成 4 个 部 分 : 


e Theano AT] 
e TensorFlow AT] 


e Keras AT] 
这 些 是 最 重要 的 深度 学 习 库 。 我 们 多 一 点 东西 : 
RA: 在 云 上 部 署 GPU 项 目 


到 这 里 你 应 该 准备 好 用 Keras 开 发 模型 了 。 


这 部 分 我 们 介绍 前 馈 神 经 网 络 ， 以 及 如 何 用 Keras 写 出 自己 的 网 络 。 大 体 分 段 : 


° 多 层 感知 器 入 门 

e 用 Keras 开 发 第 一 个 神经 网 络 

e 测试 神经 网 络 模型 性 能 

e 用 Scikit-Learn 和 Keras 模 型 进行 机 器 学 习 


这 里 有 3 个 项 目 可 以 帮助 你 开发 神经 网 络 ， 以 及 为 之 后 的 网 络 打下 模板 : 


e HA: 多 类 分 ) 
e RA: 分 类 问题 
e HA : 回归 问题 


到 这 里 你 已 经 熟悉 了 Keras 的 基本 操作 。 
1.3.4 第 四 部 分 : 高 级 多 层 感知 器 
这 部 分 我 们 进一步 探索 Keras 的 API， 研 究 如 何 得 到 世界 顶级 的 结果 。 内 容 包括 : 


如 何 保存 神经 网 络 

如 何 保存 最 好 的 网 络 
如 何 边 训练 观察 训练 结果 
如 何 对 付 过 拟 合 

如 何 提高 训练 速度 


到 这 里 你 已 经 可 以 使 用 Keras 开 发 成 熟 的 模型 了 。 


1.3.5 第 五 部 分 : 卷 积 神经 网 络 (CNN) 


这 部 分 我 们 介绍 一 些 计 算 机 视觉 和 自然 语言 的 问题 ， 以 及 如 何 用 Keras 构 建 神 经 网 
络 出 色 地 解决 问题 。 内 容 包 括 : 


° 卷 积 神 经 网 络 入 门 
e 如 何 增强 模型 效果 


写 代码 才能 次 正 理 解 网 络 : 这 里 我 们 用 CNN 解 决 如 下 问题 : 
e 项 目 : 手写 字符 识别 
e RA : 图 像 物 体 识 别 
。 项 目 : 影视 评论 分 类 
到 这 里 你 可 以 用 CNN 对 付 你 遇 到 的 实际 问题 了 。 
1.3.6 结论 
这 部 分 我 们 给 你 提供 一 些 继续 深造 的 资料 。 
1.3.7 示例 
边 学 习 边 积累 代码 库 : 每 个 问题 你 都 写 了 代码 ， 供 以 后 使 用 。 
本 书 给 你 所 有 项 目的 代码 ， 以 及 一 些 没 有 讲 到 的 Keras 代 码 。 自 己 动手 积累 吧 ! 


1.4 本 书 需 求 


1.4.1 Python 和 SciPy 


你 起 码 得 会 装 Python 和 SciPy， 本 书 默认 你 都 配置 好 了 。 你 可 以 在 自己 的 机 器 上 ， 
或 者 虚拟 机 /Docker/ 云 端 配置 好 环境 。 参 见 第 二 章 项 目 。 


本 书 使 用 的 软件 和 库 : 


Python 2 或 3 : 本 书 用 版 本 2.7.11. 

SciPy 和 NumPy : 本 书 用 SciPy 0.17.0 和 NumPy 1.11.0. 
Matplotlib : 本 书 用 版 本 1.5.1 

Pandas : 本 书 用 版 本 0.18.0 

scikit-learn : 本 书 用 版 本 0.17.1。 


版 本 不 需要 完全 一 致 : 但 是 希望 安装 的 版 本 不 要 低 于 上 面 的 要 求 。 第 二 部 分 会 带领 
你 配置 环境 。 


1.4.2 机 器 学 习 


你 不 需要 专业 背景 ， 但 是 会 用 scikit-learn 研 究 简单 的 机 器 学 习 很 有 帮助 。 交 又 检验 
等 基本 概念 了 解 一 下 。 书 后 有 参考 资料 : 简单 阅读 一 下 。 


1.4.3 深度 学 习 


你 不 需要 知道 算法 的 数学 理论 ， 但 是 概念 需要 有 所 了 解 。 本 书 有 个 神经 网 络 和 模型 
的 入 门 ， 但 是 不 会 深度 研究 细节 。 术 后 有 参考 资料 : 希望 你 对 神经 网 络 有 点 概念 。 


注意 : 所 有 的 例子 都 可 以 用 CPU 跑 ，GPU 不 是 必 备 的 ， 但 是 GPU 可 以 显著 加 速 运 
算 。 第 5 章 会 告诉 你 如 何在 云 上 配置 GPU ° 


1.5 本 书目 标 
希望 你 看 完 本 书后 有 能 力 从 数据 集 上 用 Python 开发 深度 学 习 算 法 。 和 包括 : 
如 何 开 发 并 测试 深度 学 习 模 型 


@ 

e 如 何 使 用 高 级 技巧 

e 如 何 为 图 片 和 文本 数据 构建 大 模型 
e 如 何 扩 大 图 片 数据 

o 如 何 寻 求 帮助 


现在 可 以 开始 了 。 你 可 以 挑 自己 需要 的 主题 阅读 ， 也 可 以 从 头 到 尾 走 一 遍 流程 。 我 
推荐 后 者 。 

希望 你 亲手 做 每 一 个 例子 ， 将 所 思 所 想 记 录 下 来 。 我 的 邮箱 是 
jason@MachineLearningMastery.com。 本 书 希 望 你 努力 一 下 ， 尽 快 成 为 深度 学 习 
工程 师 。 

1.6 本 书 不 是 什么 

本 书 为 开发 者 提供 深度 学 习 的 入 门 教程 ， 但 是 挂 一 漏 万 。 本 书 不 是 : 

e 深度 学 习 教 科 书 : 本 书 不 深入 神经 网 络 的 理论 细节 ， 请 自行 学 习 。 

e 算法 书 : 我 们 不 关注 算法 如 何 工作 ， 请 自行 学 习 。 

e Python 编程 书 : 本 书 不 深入 讲解 Python 的 用 法 ， 硕 望 你 已 经 会 Python 了 。 


如 果 需 要 深入 了 解 某 个 主题 ， 请 看 书后 的 帮助 。 


此 时 此 刻 ， 深 度 学 习 的 工具 处 于 历史 顶峰 ， 神 经 网 络 和 深度 学 习 的 发 展 从 未 如 此 之 
快 ， 在 无 数 领域 出 神 入 人 化。 希望 你 玩 的 开心 。 


1.7.1 下 一 步 


下 一 章 我 们 讲解 一 下 Theano、TensorFlow 和 你 要 用 的 Keras。 


第 2 章 TheanoAT] 


s 
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第 3 章 TensorFlow 入 门 


TensorFlow 是 Google 创 造 的 数值 运算 库 ， 作 为 深度 学 习 的 底层 使 有 用。 本章 包括 : 


e TensorFlow 介 绍 
e 如 何 用 TensorFlow 定 义 、 编 译 并 运算 表达 式 
e WITRE 


注意 : 2 暂时 不 支持 Windows， 你 可 以 用 Docker 或 虚拟 机 。Windows 用 户 
可 以 不 看 这 

3.1 TensorFlow 有 是 什么 ? 

TensorFlow 是 开源 数学 计算 引擎 ， 由 Google 创 造 ， 用 Apache 2.0 协 议 发 布 。TF 的 
API 是 Python 的 ， 但 底层 是 C++。 和 Theano 不 同 ，TF 兼 顾 了 工业 和 研究 ， 在 


RankBrain、DeepDream 等 项 目 中 使 用 。TF 可 以 在 单个 CPU 或 GPU， 移 动 设 备 以 
及 大 规模 分 布 式 系统 中 使 用 。 


3.2 4X TensorFlow 


TF 支持 Python 2.7 和 3.3 以 上 。 安 装 很 简单 : 


Sudo pip install TensorFlow 
就 好 了 。 


3.3 TensorFlow 例 子 


TF 的 计算 是 用 图 表示 的 : 


e 节点 : 节点 进行 计算 ， 有 一 个 或 者 多 个 输入 输出 。 节 点 间 的 数据 叫 张 量 : 多 维 
实数 数组 。 

e 边缘 : 定义 数据 、 分 支 、 循 环 和 履 盖 的 图 ， 也 可 以 进行 高 级 操作 ， 例 如 等 待 某 
个 计算 完成 。 

e 操作 : 取 一 个 输入 值 ， 得 出 一 个 输出 值 ， 例 如 ， 加 减 乘 除 。 


3.4 简单 的 TensorFlow 


简单 说 一 下 TensorFlow : 我 们 定义 a 和 bb 两 个 浮 点 变量 ， 定 义 一 个 表达 式 
(c=a+b) ， 将 表达 式 变 成 函数 ， 编 译 ， 进 行 计算 : 


import tensorflow as tf 

# declare two symbolic floating-point scalars 
a = tf.placeholder(tf.float32) 

b = tf.placeholder(tf.float32) 

# create a simple symbolic expression using the add function add 
= tf.add(a, b) 

aa loan] alos to ea 2 5 to bp and evaluate cs 
sess = tf.Session() 

binding = {a: 1.5, b: 2.5} 

c = sess.run(add, feed dict=binding) 

print(c) 


结果 是 4 : 1.5+2.5=4.0。 大 的 矩阵 操作 类 似 。 
3.5 其 他 深度 学 习 模 型 
TensorFlow 自 带 很 多 模型 ， 可 以 直接 调用 : 首先 ， 看 看 TensorFlow 的 安装 位 置 : 


python -c 'import os; import inspect; import tensorflow; print(o 
s.path.dirname(inspect.getfile(tensorflow)))' 


结果 类 似 于 : 


/usr/lib/python2.7/site-packages/tensorflow 


进入 该 目录 ， 可 以 看 见 很 多 例子 : 


多 线程 word2vec mini-batch Skip-Gram 模 型 
多 线程 word2vec Skip-Gram 模 型 
CIFAR-10 的 CNN 模 型 

类 似 LeNet-5 的 端 到 端的 MNIST 模 型 

带 注 意 力 机 制 的 端 到 端 模型 


example 目 录 带 有 MNIST 数 据 集 的 例子 ，TensorFlow 的 网 站 也 很 有 帮助 ， 包 括 不 同 
的 网 络 、 数 据 集 。TensorFlow 也 有 个 网 页 版 ， 可 以 直接 试验 。 


3.6 总 结 


本 章 关 于 TensorFlow。 总 结 一 下 : 


Q 


e TensorFlow 和 Theano 一 样 ， 都 是 数值 计算 库 
e TensorFlow 和 Theano 一 样 可 以 直接 开发 模型 
e TensorFlow 比 Theano 包 装 的 好 一 些 


3.6.1 下 一 章 
下 一 章 我 们 研究 Keras : 我 们 用 这 个 库 开 发 深度 学 习 模 型 。 


Pe 


第 3 章 TensorFlowA T] 
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第 4 章 Keras 入门 


Python 的 科学 计算 包 主 要 是 Theano 和 TensorFlow : 很 强大 ， 但 有 点 难 用 。Keras 可 
以 基于 这 两 种 包 之 一 方便 地 建立 神经 网 络 。 本 章 包 括 : 


e 使 用 Keras 进 行 深度 学 习 


e 如 何 配置 Keras 的 后 端 
e Keras 的 常见 操作 


我 们 开始 吧 。 


4.1 Keras 有 是 什么 ? 


Keras 可 以 基于 Theano 或 TensorFlow 建 立 深 度 学 习 模 型 ， 方 便 研究 和 开发 。Keras 
可 以 在 Python 2.7 或 3.5 运 行 ， 无 痛 调 用 后 端的 CPU 或 GPU 网 络 。Keras 由 Google 的 
Francois Chollet 开 发 ， 遵 循 以 下 原则 : 


e 模块 化 : 每 个 模块 都 是 单独 的 流程 或 图 ， 深 度 学 习 的 所 有 问题 都 可 以 通过 组 装 
模块 解决 

e 简单 化 : 提供 解决 问题 的 最 简单 办 法 ， 不 加 装饰 ， 最 大 化 可 读 性 

e 扩展 性 : 新 模块 的 添加 特别 容易 ， 方 便 试验 新 想法 

e Python : 不 使 用 任何 自 创 格式 ， 只 使 用 原生 Python 


4.2 安装 Keras 
Keras 很 好 安装 ， 但 是 你 需要 至 少 安装 Theano 或 TensorFlow 之 一 。 


1& M PyPI- X Keras : 


sudo pip install keras 


本 书 完成 时 ，Keras 的 最 新 版 本 是 1.0.1。 下 面 这 句 话 可 以 看 Keras 的 版 本 : 


python -c "import keras; print keras. version " 


Python 会 显示 Keras 的 版 本 号 ， 例 如 : 


1.0.1 
Keras 4F Zu a, — até : 


sudo pip install --upgrade keras 


4.3 配置 Keras 的 后 端 


Keras 是 Theano 和 TensorFlow 的 轻 量 级 API|， 所 以 必须 配合 后 端 使 用 。 后 端 配置 只 
需要 一 个 文件 : 


~/.keras/keras.json 


里 面 是 : 


{"epsilon": 1e-07, "floatx": "float32", "backend": "theano") 


默认 的 后 端 是 theano ， 可 以 改 成 tensorflow 。 下 面 这 行 命令 会 显示 Keras 的 后 


> 。 
xm 


python -c "from keras import backend; print backend. BACKEND" 


Using Theano backend. 
theano 


=A 


变量 KERAS BACKEND 可 以 控制 Keras 的 后 端 ， 例 如 : 


KERAS_BACKEND=tensorflow python -c "from keras import backend; p 
rint backend. BACKEND" 


Using TensorFlow backend. 
tensorflow 


4.4 使 用 Keras 搭 建 深度 学 习 模 型 


Keras 的 目标 就 是 搭建 模型 。 最 主要 的 模型 是 Sequential : FMAM jma ° RA 
创建 后 可 以 编译 ， 调 用 后 端 进行 优化 ， 可 以 指定 损失 有 函数 和 优化 莫 法 。 


编译 后 的 模型 需要 导入 数据 : 可 以 一 批 批 加 入 数据 ， 也 可 以 一 次 性 全 加 入 。 所 有 的 
计算 在 这 步 进行 。 训 练 后 的 模型 就 可 以 做 预测 或 分 类 了 。 大 体 上 的 步骤 是 : 


定义 模型 : 创建 Sequential 模型 ， 加 入 每 一 层 

.编译 模型 : 指定 损失 兄 数 和 优化 算法 ， 使 用 模型 的 compile() 方法 
. 拟 合 数据 : 使 用 模型 的 fit() 方法 拟 合 数据 

. 进行 预测 : 使 用 模型 的 evaluate() 或 predict() 方法 进行 预测 


BONO 


4.5 总 ge 


本 章 关 于 Keras。 总 结 一 下 : 
e Keras 是 Theano 和 TensorFlow 的 封装 ， 降 低 了 复杂 性 
e Keras 是 最 小 化 、 模 块 化 的 封装 ， 可 以 迅速 上 手 
e Keras 可 以 通过 定义 -编译 - 拟 合 搭建 模型 ， 进 行 预测 
4.5.1 下 一 章 
这 是 Python 机 器 学 习 的 最 前 沿 : 下 个 项 目 我 们 一 步 步 在 云 上 搭建 机 器 学 习 的 环境 。 


第 5 章 RA: 在 云 上 搭建 机 器 学 习 环 境 


TODO 
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第 6 章 多 层 感 知 器 入 门 


神经 网 络 很 神奇 ， 但 是 一 开始 学 起 来 很 痛苦 ， 涉 及 大 量 术语 和 算法 。 本 章 主 要 


多 层 感知 器 的 术语 和 使 用 方法 。 本 章 将 : 


e 介绍 神经 网 络 的 神经 元 、 权 重 和 激活 函数 
e 如 何 使 用 构建 块 建立 网 络 
e 如 何 训 练 网 络 


我 们 开始 吧 。 


6.1 绪论 

本 节 课 的 内 容 很 多 : 

多 层 感 知 器 

神经 元 、 权 重 和 激活 函数 
神经 元 网 络 

网 络 训练 

我 们 从 多 层 感知 器 开始 谈 起 。 


6.2 多 层 感 知 器 
( 译 者 注 : 本 书 中 的 “神经 网 络 " 一 般 指 “人 工 神 经 网 络 ”) 


在 一 般 的 语 境 中 ， 人 工 神 经 网 络 一 般 指 神经 网 络 ， 或 者 ， 多 层 感知 器 


介绍 


| = 


。 感 知 器 


是 简单 的 神经 元 模型 ， 大 型 神经 网 络 的 前 体 。 这 个 领域 主要 研究 大 脑 如 何 通 过 简单 
的 生物 学 结构 解决 复杂 的 计算 问题 ， 例 如 ， 进 行 预 测 。 最 终 的 目标 不 是 要 建立 大 脑 


的 丨 正 模 型 ， 而 是 发 气 可 以 解决 复杂 问题 的 算法 。 


神经 网 络 的 能 力 来 自 它 可 以 从 输入 数据 中 学 习 ， 对 未 来 进行 预测 ; 在 这 个 意义 上 

说 ， 神 经 网 络 学 习 了 一 种 对 应 关系 。 数 学 上 说 ， 这 种 能 力 是 一 种 有 普 适 性 的 近似 算 
法 。 神 经 网 络 的 预测 能 力 来 自 网 络 的 分 层 或 多 层 结 构 : 这 种 结构 可 以 找 出 不 同 尺 度 
或 分 辨 率 下 的 不 同 特征 ， 将 其 组 合成 更 高 级 别 的 特征 。 例 如 ， 从 线条 到 线条 的 集合 


到 形状 。 


6.3 神经 元 


神经 网 络 由 人 工 神 经 元 组 成 : 这 些 神经 元 有 计算 能 力 ， 使 用 激活 函数 ， 利 用 输入 和 


权重 ， 输 出 一 个 标量 。 


Outputs 


Activation 


Weights 


Inputs 


6.3.1 神经 元 权重 


线性 回归 的 权重 和 这 里 的 权重 类 似 : 每 个 神经 元 也 有 一 个 误差 项 ， 永 远 是 1.0， 必 须 
被 加 权 。 例 如 ， 一 个 神经 元 有 2 个 输入 值 ， 那 就 需要 3 个 权重 项 : 一 个 输入 一 个 权 
重 ， 加 上 一 个 误差 项 的 权重 。 


权重 项 的 初始 值 一 般 是 小 随机 数 ， 例 如 ，0~0.3 ; 也 有 更 复杂 的 初始 化 方法 。 和 线 
性 回归 一 样 ， 权 重 越 大 代表 网 络 越 复杂 ， 越 不 稳定 。 我 们 希望 让 权重 变 小 ， 为 此 可 
以 使 用 正则 化 。 


6.3.2 激活 函数 


神经 元 的 所 有 输入 都 被 加 权 求 和 ， 输 入 激活 函数 中 。 激 活 函 数 就 是 输入 的 加 权 求 和 
值 到 信号 输出 的 映射 。 激 活 函 数 得 名 于 其 功能 : 控制 激活 哪个 神经 元 ， 以 及 输出 信 
号 强度 。 历 史上 的 激活 函数 是 个 阅 值 : 例如 ， 输 入 加 权 求 和 超过 0.5， 则 输出 1 ; K 
之 输出 0.0 ° 


激活 函数 一 般 使 用 非 线性 函数 ， 这 样 输入 的 组 合 方式 可 以 更 复杂 ， 提 供 更 多 功能 。 
非 线性 函数 可 以 输出 一 个 分 布 : lho BA (也 称 为 S 型 函数 ) 输出 一 个 0 到 1 
之 间 的 S 形 分 布 ， 正 切 函数 可 以 输出 一 个 -1 到 1 之 间 的 S 形 分 布 。 最 近 的 研究 表明 ， 
线性 整流 函数 的 效果 更 好 。 


6.4 神经 元 网 络 


神经 元 可 以 组 成 网 络 : 每 行 的 神经 元 叫做 一 层 ， 一 个 神经 网 络 可 以 有 很 多 层 。 神 经 
网 络 的 结构 叫做 网 络 拓扑 。 


Output Layer 


Hidden Layer 


Input Layer 


6.4.1 输入 层 


神经 网 络 最 底下 的 那 层 叫 输入 层 ， 因 为 直接 和 数据 连接 。 一 般 的 节点 数 是 数据 的 列 
数 。 这 层 的 神经 元 只 将 数据 传输 到 下 一 层 。 


6.4.2 隐 层 
输入 节点 后 的 层 叫 隐 层 ， 因 为 不 直接 和 外 界 相连 。 最 简单 的 网 络 中 ， 隐 层 只 有 一 个 
神经 元 ， 直 接 输出 结果 。 随 着 算 力 增加 ， 现 在 可 以 训练 很 复杂 ， 层 数 很 高 的 神经 网 


络 : 历史 上 需要 几 靳 子 才能 训练 的 网 络 ， 现 在 有 可 能 几 分 钟 就 能 训练 好 。 


6.4.3 输出 层 


神经 网 络 的 最 后 一 层 叫 输出 层 ， 输 出 问题 需要 的 值 。 这 层 的 激活 郊 数 由 问题 的 类 型 
而 定 : 


e 简单 的 回归 问题 : 有 可 能 只 有 一 个 神经 元 ， 没 有 激活 函数 

e 两 项 的 分 类 问题 : 有 可 能 只 有 一 个 神经 元 ， 激 活 函 数 是 S 型 函数 ， 输 出 一 个 0 到 
1 之 间 的 概率 ， 代 表 主 类 别 的 概率 。 也 可 以 用 0.5 作 为 阅 值 : 低 于 0.5 输 出 0， 大 
于 0.5 输 出 1. 

e 多 项 的 分 类 问题 : 有 可 能 有 多 个 神经 元 ， 每 个 代表 一 类 (例如 ，3 个 神经 元 ， 
代表 3 种 不 同 的 蓝 尾 花 - 这 是 个 经 典 问 题 )。 激 活 函 数 可 以 使 用 Softmax 远 数 ， 
每 个 输出 代表 是 某 个 类 别 的 概 府 。 最 有 可 能 的 类 别 就 是 输出 最 高 的 那 组 。 


6.5 网 络 训练 


6.5.1 预备 数据 


预 处 理 一 下 数据 : 数据 必须 是 数值 ， 例如， 实数 。 如 果 某 一 项 是 类 别 ， 需 要 通过 独 
热 编码 将 其 变 成 数字 : 对 于 N 种 可 能 的 类 别 ， 加 入 N 列 ， 对 其 取 0 或 1 代表 是 否 属于 
该 类 别 。 


独 热 编码 也 可 以 对 多 个 类 别 进行 编码 : 建立 一 个 二 进 制 向 量 表示 类 别 ， 输 出 的 结果 
可 以 对 类 别 进行 分 类 。 神 经 网 络 需要 所 有 的 数据 单位 差不多 : 例如 ， 将 所 有 的 数据 
缩放 到 0 和 1 之 间 ， 这 步 叫 归 一 化 。 或 者 ， 对 数据 进行 缩放 (正则 化 ) ， 让 每 列 的 平 


均值 为 0， 标 准 差 为 1°。 图 像 的 像素 数据 也 应 该 这 样 处 理 。 文 字 输 入 可 以 转化 为 数 
字 ， 例 如 某 个 单词 出 现 的 频率 ， 或 者 用 其 他 的 什么 办 法 转化 。 


6.5.2 随机 梯度 下 降 


随机 梯度 下 降 很 经 典 ， 现 在 还 是 很 流行 。 使 用 的 方式 是 正 向 传递 : 每 次 对 网 络 输入 
一 行 数据 ， 激 活 每 层 神 经 元 ， 得 出 一 个 输出 值 。 对 数据 进行 预测 也 用 这 种 方式 。 


我 们 把 输出 和 预计 值 进行 比较 ， 算 出 误差 ; 这 个 错误 通过 网 络 反 向 传播 ， 更 新 权重 
数据 。 这 个 算法 叫 反 向 传播 算法 。 我 们 在 所 有 的 训练 数据 上 重复 此 过 程 ， 每 次 网 络 
全 部 更 新 叫 一 轮 。 神 经 网 络 可 以 训练 几 十 乃至 成 千 上 万 轮 。 


6.5.3 权重 更 新 


神经 网 络 的 权重 可 以 每 次 训练 都 更 新 ， 这 种 方式 叫 在 线 更 新 ， 速度 很 块 但 是 有 可 能 
造成 灾难 性 结果 。 或 者 也 可 以 保存 误差 数据 ， 最 后 只 更 新 一 次 : 这 种 更 新 叫 批量 更 
新 ， 一 般 而 言 更 稳妥 。 


因为 数据 集 有 可 能 很 大 ， 为 了 计算 速度 ， 
几 百 个 数据 。 权 重 的 更 新 数量 由 学 习 速 率 
对 错误 的 更 新 速度 。 这 个 参数 一 般 很 小 ， 
参数 : 


e AE: 如 果 上 次 和 这 次 的 方向 一 样 ， 则 加 速 变化 ， 即 使 这 次 的 错误 不 那么 大 。 
用 于 加 速 网 络 训练 。 

e 学 习 速 率 衰 减 : 随 着 训练 次 数 增加 而 减少 学 习 速 率 。 在 一 开始 加 速 训练 ， 后 面 
微调 参数 。 


每 次 更 新 的 数据 量 一 般 不 大 ， 只 有 几 十 到 
(HK) 这 个 参数 控制 ， 规 定神 经 网 络 针 
0.1 或 者 0.01， 乃至 更 小 。 也 可 以 调整 其 他 


6.5.4 进行 预测 


训练 好 的 神经 网 络 就 可 以 进行 预测 了 。 可 以 使 用 测试 数据 进行 测量 ， 看 看 能 不 能 预 
测 新 的 数据 ; 也 可 以 部 署 网 络 ， 进 行 预测 。 网 络 只 需要 保存 拓扑 结构 和 最 终 的 权 
重 。 将 新 的 数据 喂 进 去 ， 经 过 前 向 传输 ， 和 神经 网 络 就 会 做 出 预测 了 。 


6.6 š 2 

本 章 关 于 利用 人 工 神 经 网 络 进行 机 器 学 习 。 总 结 一 下 : 

神经 网 络 不 是 大 脑 的 模型 ， 而 是 计算 模型 ， 可 以 解决 复杂 的 机 器 学 习 问 题 
神经 网 络 由 带 有 权重 和 激活 函数 的 神经 元 组 成 


神经 网 络 分 层 ， ， 用 随机 梯度 下 降 训 练 
应 该 预 处 理 数 据 


6.6.1 下 一 章 
你 已 经 了 解 了 神经 网 络 : 下 一 章 我 们 用 Keras 动 手 制作 第 一 个 神经 网 络 。 


第 7 章 使 用 Keras 开 发 神经 网 络 


Keras 基 于 Python， 开 发 深度 学 习 模 型 很 容易 。Keras 将 Theano 和 TensorFlow 的 数 
值 计算 封装 好 ， 几 和 句 话 就 可 以 配置 并 训练 神经 网 络 。 本 章 开 始 使 用 Keras 开 发 神经 
网 络 。 本 章 将 : 


e 将 CSV 数 据 读 入 Keras 
e 用 Keras 配 置 并 编译 多 层 感 知 器 模型 
e 用 验证 数据 集 验 证 Keras 模 型 型 


我 们 开始 吧 。 


7.1 简介 
虽然 代码 量 不 大 ， 但 是 我 们 还 是 慢 慢 来 。 大 体 分 几 步 : 


.导入 数据 
定义 模型 
编译 模型 
训练 模型 
测试 模型 
写 出 程序 


OF Or Ter ON 


7.2 皮 马 人 糖尿 病 数据 集 


我 们 使 用 皮 马 人 糖尿 病 数 据 集 (Pima Indians onset of diabetes) ， 在 UCI 的 机 器 学 
习 网 站 可 以 免费 下 载 。 数 据 集 的 内 容 是 皮 马 人 的 医疗 记录 ， 以 及 过 去 5 年 内 是 否 有 
糖尿 病 。 所 有 的 数据 都 是 数字 ， 问 题 是 (是 否 有 糖尿 病 是 1 或 0) ， 是 二 分 类 问题 。 
数据 的 数量 级 不 同 ， 有 8 个 属性 : 


怀孕 次 数 

.2 小 时 口服 葡萄 糖 耐量 试验 中 的 血浆 葡萄 
舒张 压 〈 毫 米尔 柱 ) 

. 2 小 时 血清 胰岛 素 (mu U/ml) 

. 体重 指数 (BMI) 

糖尿 病 血 系 功 能 

. F (F) 

. 类别 : 过 去 5 年 内 是 否 有 糖尿 病 


a 5 UNT 本 书后 面 也 会 用 到 这 个 数据 集 。 数 据 
有 768 行 ， 前 5 行 的 样本 长 这 


PD 


6,148,72,35,0,33.6,0.627,50,1 
1,85,66,29,0,26.6,0.351,31,0 
8,183,64,0,0,23.3,0.672,32,1 
1,89,66, 23,94,28.1,0.167,21,0 
0,137,40,35,168,43.1,2.288,33,1 


数据 在 本 书 代 码 的 data 目录 ， 也 可 以 在 UCI 机 器 学 习 的 网 站 下 载 。 把 数据 和 
Python 文件 放 在 一 起 ， 改 名 : 


pima-indians-diabetes.csv 


基准 准确 率 是 65.1%， 在 10 次 交叉 验证 中 最 高 的 正确 率 是 77.7%。 在 UCI 机 器 学 习 
的 网 站 可 以 得 到 数据 集 的 更 多 资料 。 


7.3 导入 资料 


使 用 随机 梯度 下 降 时 最 好 固定 随机 数 种 子 ， 这 样 你 的 代码 每 次 运行 的 结果 都 一 致 。 
这 种 做 法 在 演示 结果 、 上 比较 算法 或 debug 时 特别 有 效 。 你 可 以 随便 选 种 子 : 


# fix random seed for reproducibility 
seed =7 
numpy.random.seed(seed) 


现在 导入 皮 马 人 数据 集 。NumPy 的 loadtxt() 函数 可 以 直接 带 入 数据 ， 输 入 变量 
是 8 个 ， 输 出 1 个 。 导 入 数据 后 ， 我 们 把 数据 分 成 输入 和 输出 两 组 以 便 交 又 检验 : 


# load pima indians dataset 

dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=" 
o) 

4 split into input (X) and output (Y) variables 

X - dataset[:,0:8] 

Y = dataset[:,8] 


这 样 我 们 的 数据 每 次 结果 都 一 致 ， 可 以 定义 模型 了 。 


7.4 定义 模型 


Keras 的 模型 由 层 构成 : 我 们 建立 一 个 Sequential 模型 ， 一 层 层 加 入 神经 元 。 第 
一 步 是 确定 输入 层 的 数目 正确 : 在 创建 模型 时 用 input dim 参数 确定 。 例 如 ， 有 
8 个 输入 变量 ， 就 设 成 8。 


隐 层 怎么 设置 ? 这 个 问题 很 难 回 答 ， 需 要 慢 慢 试验 。 一 般 来 说 ， 如 果 网 络 够 大 ， 即 
使 存在 问题 也 不 会 有 影响 。 这 个 例子 里 我 们 用 3 层 全 连接 网 络 。 


全 连接 层 用 pense REL: 第 一 个 参数 是 本 层 神 经 元 个 数 ， 然 后 是 初始 化 方式 和 
激活 函数 。 这 里 的 初始 化 方法 是 0 到 0.05 的 连续 型 均匀 分 布 ( uniform ) > Keras 
的 默认 方法 也 是 这 个 。 也 可 以 用 高 斯 分 布 进行 初始 化 ( normal ) ° 


前 两 层 的 激活 函数 是 线性 整流 函数 〈 relu ) ， 最 后 一 层 的 激活 函数 是 S 型 函数 
( sigmoid ) 。 之 前 大 家 喜欢 用 S 型 和 正切 兄 数 ， 但 现在 线性 整流 函数 效果 更 
好 。 为 了 保证 输出 是 0 到 1 的 概率 数字 ， 最 后 一 层 的 激活 函数 是 S 型 函数 ， 这 样 映射 
到 0.5 的 阅 值 函数 也 容易 。 前 两 个 隐 层 分 别 有 12 和 8 个 神经 元 ， 最 后 一 层 是 1 个 神经 

元 (是 否 有 糖尿 病 ) ° 


# create model 

model = Sequential() 

model.add(Dense(12, input_dim=8, init='uniform', activation='rel 
u')) model.add(Dense(8, init='uniform', activation='relu')) mode 
l.add(Dense(1, init='uniform', activation='sigmoid')) 


网 络 的 结构 如 图 : 


Output Layer 
(1 output) 


Hidden Layer 


(8 neurons) 


Hidden Layer 


(12 neurons) 


Visible Layer 
(8 inputs) 





7.5 编译 模型 


定义 好 的 模型 可 以 编译 : Keras 会 调用 Theano 或 者 TensorFlow 编 译 模型 。 后 端 会 自 
动 选择 表示 网 络 的 最 佳 方法 ， 配 合 你 的 硬件 。 这 步 需要 定义 几 个 新 的 参数 。 训 练 神 
经 网 络 的 意义 是 : 找到 最 好 的 一 组 权重 ， 解 决 问题 。 


我 们 需要 定义 损失 函数 和 优化 算法 ， 以 及 需要 收集 的 数据 。 我 们 使 

用 binary_crossentropy ， 错 误 的 对 数 作为 损失 函数 ; adam 作为 优化 算法 ， 
为 这 东西 好 用 。 想 深入 了 解 请 查阅 : Adam: A Method for Stochastic Optimization 
论文 。 因 为 这 个 问题 是 分 类 问题 ， 我 们 收集 每 轮 的 准确 举 。 

7.6 训练 模型 

终于 开始 训练 了 ! 调用 模型 的 fit() 方法 即 可 开始 训练 。 


网 络 按 轮 训练 ， 通 过 nb epoch 参数 控制 。 每 次 送 入 的 数据 (ERG) 可 以 
用 batch size 参数 控制 。 这 里 我 们 只 跑 150 轮 ， 每 次 10 个 数据 。 多 试 试 就 知道 
了 。 


# Fit the model 
model.fit(X, Y, nb_epoch=150, batch_size=10) 


现在 CPU 或 GPU 开始 前 鸡蛋 了 。 
7.7 测试 模型 


我 们 把 测试 数据 拿 出 来 检验 一 下 模型 的 效果 。 注 意 这 样 不 能 测试 在 新 数据 的 预测 能 
力 。 应 该 将 数据 分 成 训练 和 测试 集 。 

调用 模型 的 evaluation() 方法 ， 传 入 训练 时 的 数据 。 输 出 是 平均 值 ， 包 括 平均 
误差 和 其 他 的 数据 ， 例 如 准确 度 。 


# evaluate the model 

scores = model.evaluate(X, Y) 

print("%s: %.2f%%" % (model.metrics_names[1], scores[1]*100)) 
7.8 5 BE 


用 Keras 做 机 器 学 习 就 是 这 么 简单 。 我 们 把 代码 放 在 一 起 : 


# Create first network with Keras 

from keras.models import Sequential 

from keras.layers import Dense 

import numpy 

# fix random seed for reproducibility 

seed = 7 

numpy.random.seed(seed) 

# load pima indians dataset 

dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=" 
1) 

, 

4 split into input (X) and output (Y) variables 

X = dataset[:,0:8] 

Y = dataset[:,8] 

4 create model 

model - Sequential() 

model.add(Dense(12, input dim-8, init-'uniform', activation-'rel 

u')) model.add(Dense(8, init='uniform', activation='relu')) 

model.add(Dense(1, init='uniform', activation='sigmoid' )) 

# Compile model 

model.compile(loss='binary_crossentropy', optimizer='adam', metr 

ics=['accuracy']) # Fit the model 

model.fit(X, Y, nb_epoch=150, batch_size=10) 

# evaluate the model 

scores = model.evaluate(X, Y) 

print("%s: %.2—%%" % (model.metrics names[1], scores[1]*100)) 


训练 时 每 轮 会 输出 一 次 损失 和 正确 率 ， 以 及 最 终 的 效果 。 在 我 的 CPU 上 用 Theano 
大 约 跑 10 秒 : 


Epoch 143/150 

768/768 [==============================] - Os - loss: 0.4614 - a 
CC 0:7878 

Epoch 144/150 

768/768 [==============================] - Os - loss: 0.4508 - a 
CC 0.7969 

Epoch 145/150 

768/768 [==============================] - Os - loss: 0.4580 - a 
cc: 0.7747 

Epoch 146/150 

768/768 [==============================] - 0s - loss: 0.4627 - a 
CC: OF 7912 

Epoch 147/150 

768/768 [==============================] - Os - loss: 0.4531 - a 
cc: 0.7943 

Epoch 148/150 

768/768 [==============================] - Qs - loss: 0.4656 - a 
cc: 0.7794 

Epoch 149/150 

768/768 [==============================] - Os - loss: 0.4566 - a 
CG: 0.71839 

Epoch 150/150 

768/768 [==============================] - Os - loss: 0.4593 - a 
CC: 0:7839 

768/768 [==============================] - Qs 

acc: 79.56% 


7.9 总 结 
本 章 关 于 利用 Keras 创 建 神经 网 络 。 总 结 一 下 : 
如 何 导 入 数据 


e 
e 如 何 用 Keras 定 义 神 经 网 络 
e 如 何 调用 后 端 编译 模型 
e 如 何 训 练 模型 
e 如 何 测试 模型 
7.9.1 下 一 章 


现在 你 已 经 知道 如 何如 何 用 Keras 开 发 神经 网 络 : 下 一 章 讲 讲 如 何在 新 的 数据 上 进 
行 测试 。 


第 8 章 测试 神经 网 络 
深度 学 习 有 很 多 参数 要 调 : 大 部 分 都 是 拍 脑 袋 的 S 所 以 测试 特别 重要 : 本 章 我 们 讨 
论 几 种 测试 方法 。 本 章 将 : 


e 使 用 Keras 进 行 自 动 验 证 
e 使 用 Keras 进 行 手工 验 证 
e 使 用 Keras 进 行 K 折 交 又 验证 


我 们 开始 吧 。 


8.4 口算 神经 网 络 


创建 神经 网 络 时 有 很 多 参数 : 很 多 时 候 可 以 从 别人 的 网 络 上 抄 ， 但 
一 点 点 做 实验 。 无 论 是 网 络 的 拓扑 结构 ( 层 数 、 大 小 、 每 层 类 型 ) 
KBR. ES WEE) 等 。 


一 般 深 度 学 习 的 数据 集 都 很 大 ， 数 据 有 几 十 万 乃至 几 亿 个 。 所 以 测试 方法 至 关 重 
要 ° 


是 最 终 还 是 需 
还 是 小 参数 ( 


8.2 分 割 数据 

数据 量 大 和 网 络 复杂 会 造成 训练 时 间 很 长 ， 所 以 需要 将 数据 分 成 训练 、 测 试 或 验证 
数据 集 。Keras 提 供 两 种 办 法 : 

1. 自动 验证 

2. 手工 验证 

8.2.1 自动 验证 


Keras 可 以 将 数据 自动 分 出 一 部 分 ， 每 次 训练 后 进行 验证 。 “在 训练 时 
用 validation split 参数 可 以 指定 验证 数据 的 比例 ， 一 般 是 总 数据 的 20% 或 者 


33%。 下 面 的 代码 在 第 七 章 上 加 入 了 自动 验证 : 


# MLP with automatic validation set 

from keras.models import Sequential 

from keras.layers import Dense 

import numpy 

# fix random seed for reproducibility 

seed = 7 

numpy.random.seed(seed) 

# load pima indians dataset 

dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=" 
1) 

, 

# split into input (X) and output (Y) variables 

X = dataset[:,0:8] 

Y = dataset[:,8] 

# create model 

model = Sequential() 

model.add(Dense(12, input_dim=8, init='uniform', activation='rel 

u')) model.add(Dense(8, init='uniform', activation='relu')) 

model.add(Dense(1, init='uniform', activation='sigmoid' )) 

# Compile model 

model.compile(loss='binary_crossentropy', optimizer='adam', metr 

ics=['accuracy']) # Fit the model 

model.fit(X, Y, validation_split=0.33, nb_epoch=150, batch_size= 

10) 


训练 时 ， 每 轮 会 显示 训练 和 测试 数据 的 数据 : 


Epoch 145/150 
514/514 [==============================] - Os - loss: 0.4885 - a 
cc: 0.7743 - val loss: 

0.5016 - val acc: 0.7638 
Epoch 146/150 
514/514 [==============================] - Os - loss: 0.4862 - a 
cc: 0.7704 - val loss: 

0.5202 - val acc: 0.7323 
Epoch 147/150 
514/514 [==============================] - Os - loss: 0.4959 - a 
cc: 0.7588 - val loss: 

0.5012 - val-acc: 0.7598 
Epoch 148/150 
514/514 [==============================] - 0s - loss: 0.4966 - a 
cc: 0.7665 - val loss: 

0.5244 - val_acc: 0.7520 
Epoch 149/150 
514/514 [==============================] - 0s - loss: 0.4863 - a 
cc: 0.7724 - val loss: 

0.5074 - val_acc: 0.7717 
Epoch 150/150 
514/514 [==============================] - 0s - loss: 0.4884 - a 
cc: 0.7724 - Val loss: 

0.5462 - val_acc: 0.7205 


8.2.2 手工 验证 


Keras 也 可 以 手工 进行 验证 。 我 们 定义 一 个 train test split 函数， 将 数据 分 成 
2: 1 的 测试 和 验证 数据 集 。 在 调用 fit() 方法 时 需要 加 入 validation data £ 
数 作 为 验证 数据 ， 数 组 的 项 目 分 别 是 输入 和 输出 数据 。 


# MLP with manual validation set 
from keras.models import Sequential 
from keras.layers import Dense 
from sklearn.cross validation import train test split 
import numpy 
4 fix random seed for reproducibility 
seed - 7 
numpy.random.seed(seed) 
4 load pima indians dataset 
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=" 
EN) 
split into input (X) and output (Y) variables 
= dataset[:,0:8] 
= dataset[:,8] 
split into 67% for train and 33% for test 
_train, X_test, y_train, y_test = train_test_split(X, Y, test_s 
ize=0.33, random_state=seed) # create model 
model = Sequential() 
model.add(Dense(12, input_dim=8, init='uniform', activation='rel 
u')) 
model.add(Dense(8, init='uniform', activation='relu')) 
model.add(Dense(1, init='uniform', activation='sigmoid')) 
# Compile model 
model.compile(loss='binary_crossentropy', optimizer='adam', metr 
ics=['accuracy']) 
# Fit the model 
model.fit(X train, y train, validation data-(X test,y test), nb. 
epoch=150, batch size-z10) 


2X dto OX dtc 


和 自动 化 验证 一 样 ， 每 轮训 练 后 ，Keras 会 输出 训练 和 验证 结果 : 


Epoch 145/150 
514/514 [==============================] - Qs - loss: 0.5001 - a 
cc: 0.7685 - val loss: 

0:5617 - val-acc: 0.7087 
Epoch 146/150 
514/514 [==============================] - Os - loss: 0.5041 - a 
cc: 0,7529 = val-loss: 

0.5423 = val acc: 0.7362 
Epoch 147/150 
514/514 [==============================] - @s - loss: 0.4936 - a 
cc: 0.7685 - val loss: 

0.5426 - val_acc: 0.7283 
Epoch 148/150 
514/514 [==============================] - 0s - loss: 0.4957 - a 
cc: 0,7685 - val loss: 

0.5430 - val acc: 0.7362 
Epoch 149/150 
514/514 [==============================] - Os - loss: @ 4953 - a 
cc: 0.7685 = val loss: 

0.5409 - val-acc: 0.7923 
Epoch 150/150 
514/514 [==============================] - 0s - loss: 0.4941 - a 
cc: 0.7743 - val loss: 

0:5452 - val acc: 0.7923 


8.3 手工 K 折 交 又 验证 


机 器 学 习 的 金 科 玉 律 是 K 折 验证 ， 以 验证 模型 对 未 来 数据 的 预测 能 力 。K 折 验证 的 方 
法 是 : 将 数据 分 成 K 组 ， 留 下 1 组 验证 ， 其 他 数据 用 作 训 练 ， 直 到 每 种 分 发 的 性 能 一 
致 。 


深度 学 习 一 般 不 用 交叉 验证 ， 因 为 对 算 力 要 求 太 高 。 例 如 ，K 折 的 次 数 一 般 是 5 或 者 
10 折 : 每 组 都 需要 训练 并 验证 ， 训 练 时 间 成 位 上升 。 然 而 ， 如 果 数 据 量 小 ， 交 又 验 
证 的 效果 更 好 ， 误 差 更 小 。 


scikit-learn 有 StratifiedKFold 类 ， 我 们 用 它 把 数据 分 成 10 组 。 抽 样 方法 是 分 层 
抽样 ， 尽 可 能 保证 每 组 数据 量 一 致 。 然 后 我 们 在 每 组 上 训练 模型 ， 使 

用 verbose=0 参数 关闭 每 轮 的 输出 。 训 练 后 ，Keras 会 输出 模型 的 性 能 ， 并 存储 

模型 。 最 终 ，Keras 输 出 性 能 的 平均 值 和 标准 差 ， 为 性 能 估算 提供 更 准确 的 估计 : 


4 MLP for Pima Indians Dataset with 10-fold cross validation 
from keras.models import Sequential 
from keras.layers import Dense 
from sklearn.cross_validation import StratifiedKFold 
import numpy 
# fix random seed for reproducibility 
seed = 7 
numpy.random.seed(seed) 
# load pima indians dataset 
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=" 
5 
了 
# split into input (X) and output (Y) variables 
X = dataset[:,0:8] 
Y = dataset[:,8] 
# define 10-fold cross validation test harness 
kfold = StratifiedKFold(y=Y, n_folds=10, shuffle=True, random_st 
ate=seed) 
cvscores = [] 
for i, (train, test) in enumerate(kfold): 
# create model 
model = Sequential() 
model.add(Dense(12, input_dim=8, init='uniform', activation= 
'relu')) model.add(Dense(8, init='uniform', activation='relu')) 
model.add(Dense(1, init='uniform', activation='sigmoid')) 
# Compile model 
model.compile(loss='binary_crossentropy', optimizer='adam', 
metrics=['accuracy']) # Fit the model 
model.fit(X[train], Y[train], nb_epoch=150, batch_size=10, verbo 
se=0) 
# evaluate the model 
scores = model.evaluate(X[test], Y[test], verbose=0) 
print("%s: 96.2f996" % (model.metrics names[1], scores[1]*100) 
) cvscores.append(scores[i] * 100) 
print("%.2f%% (+/- 96.2f996)" % (numpy.mean(cvscores), numpy.s 
td(cvscores))) 


输出 是 : 


LI 


acc: 77.92% 
acc: 79.22% 
acc: 76.62% 
acc: 77.92% 
acc: 75.32% 
acc: 74.0396 
acc: 77.92% 
acc: 71.43% 
acc: 71.05% 
acc: 75.00% 
75.64% (+/- 2.67%) 


每 次 循环 都 需要 重新 生成 模型 ， 使 用 对 应 的 数据 训练 。 下 一 章 我 们 用 scikit-learn 直 
接 使 用 Keras 的 模型 。 


8.4 24 

本 章 关 于 测试 神经 网 络 的 性 能 。 总 结 一 下 : 
e 如 何 自动 将 数据 分 成 训练 和 测试 组 

e 如 何人 工 对 数据 分 组 

e 如 何 使 用 K 折 法 测试 性 能 
8.4.1 下 一 章 


现在 你 已 经 知道 如 何如 何 测试 神经 网 络 的 性 能 : 下 一 章 讲 讲 如 何在 scikit-learn 中 直 
接 使 用 Keras 的 模型 。 


$93 使 用 Scikit-Learn 调 用 Keras 的 模型 


scikit-learn 是 最 受 欢迎 的 Python 机 器 学 习 库 。 本 章 我 们 将 使 用 scikit-learn 调 用 Keras 
生成 的 模型 。 本 章 将 : 


e 使 用 scikit-learn 封 装 Keras 的 模型 
e 使 用 Scikit-learn 对 Keras 的 模型 进行 交叉 验证 
e 使 用 scikit-learn， 利 用 网 格 搜索 调整 Keras 模 型 的 超 参 


我 们 开始 吧 。 


9.1 简介 


Keras 在 深度 学 习 很 受 欢 迎 ， 但 是 只 能 做 深度 学 习 : Keras 是 最 小 化 的 深度 学 习 库 ， 
目标 在 于 快速 搭建 深度 学 习 模 型 。 基于 SciPy 的 scikit learn， 数 值 运算 效率 很 高 ， 适 
用 于 普遍 的 机 器 学 习 任务 ， 提 供 很 多 机 器 学 习 工 具 ， 包 括 但 不 限于 : 


e 使 用 K 折 验证 模型 
快速 搜索 并 测试 超 参 


Keras 为 scikit-learn 封 装 了 KerasClassifier 和 KerasRegressor 。 本 章 我 们 继 
续 使 用 第 7 章 的 模型 。 


9.2 使 用 交叉 验证 检验 深度 学 习 模 型 


Keras 的 KerasClassifier 和 KerasRegressor 两 个 类 接受 build fn 参数 ， 
传 入 编译 好 的 模型 。 我 们 加 入 nb_epoch=150 和 batch size-10 这 两 个 参数 : 
这 两 个 参数 会 传 入 模型 的 fit() 方法 。 我 们 用 scikit-learn 

的 StratifiedKFold 类 进行 10 折 交叉 验证 ， 测 试 模型 在 未 知 数据 的 性 能 ， 并 使 
用 cross val score() 函数 检测 模型 ， 打 印 结果 。 


# MLP for Pima Indians Dataset with 10-fold cross validation via 
sklearn 
from keras.models import Sequential 
from keras.layers import Dense 
from keras.wrappers.scikit learn import KerasClassifier 
from sklearn.cross validation import StratifiedKFold 
from sklearn.cross validation import cross val score 
import numpy 
import pandas 
4 Function to create model, required for KerasClassifier 
def create model(): 
4 create model 
model - Sequential() 
model.add(Dense(12, input dim-8, init-'uniform', activation- 
'relu')) model.add(Dense(8, init='uniform', activation='relu' )) 
model.add(Dense(1, init='uniform', activation='sigmoid' )) 
# Compile model 
model.compile(loss='binary_crossentropy', optimizer='adam', 
metrics-['accuracy']) return model 
4 fix random seed for reproducibility 
seed - 7 
numpy.random.seed(seed) 
4 load pima indians dataset 
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=" 
") 
1 
# split into input (X) and output (Y) variables 
x = dataset[:,0:8] 
Y = dataset[:,8] 
# create model 
model = KerasClassifier(build_fn=create_model, nb_epoch=150, bat 
ch_size=10) 
# evaluate using 10-fold cross validation 
kfold = StratifiedKFold(y=Y, n_folds=10, shuffle=True, random_st 
ate=seed) 
results = cross_val_score(model, X, Y, cv=kfold) 
print(results.mean()) 


每 轮训 练 会 输出 一 次 结果 ， 加 上 最 终 的 平均 性 能 : 


Epoch 145/150 

692/692 [==============================] - Os - loss: 0.4671 - a 
CC: 0.7803 

Epoch 146/150 

692/692 [==============================] - Os - loss: 0.4661 - a 
cc: 0.7847 

Epoch 147/150 

692/692 [==============================] - 0s - loss: 0.4581 - a 
CG: EG oS 

Epoch 148/150 

692/692 [==============================] - Os - loss: 0.4657 - a 
CC: 0:7688 

Epoch 149/150 

692/692 [==============================] - Os - loss: 0.4660 - a 
cci 659 

Epoch 150/150 

692/692 [==============================] - Os - loss: 0.4574 - a 
CC: 0.7702 

76/76 [==============================] - Qs 

0.756442244065 


比 起 手工 测试 ， 使 用 scikit-learn 容 易 的 多 。 


9.3 使 用 网 格 搜 索 调整 深度 学 习 模 型 的 参数 


使 用 scikit-learn 封 装 Keras 的 模型 十 分 简单 。 进 一 步 想 : 我 们 可 以 给 fit() 方法 传 
入 参数 ， KerasClassifier 的 build fn 方法 也 可 以 传 入 和 参数。 可 以 利用 这 点 进 
一 步调 整 模 型 。 


我 们 用 网 格 搜 索 测试 不 同 参数 的 性 能 : create model() 函数 可 以 传 
A optimizer 和 init 参数 ， 虽 然 都 有 默认 值 。 那 么 我 们 可 以 用 不 同 的 优化 算法 
和 初始 权重 调整 网 络 。 具 体 说 ， 我 们 希望 搜索 : 


优化 算法 : 搜索 权重 的 方法 

初始 权重 : 初始 化 不 同 的 网 络 
训练 次 数 : 对 模型 训练 的 次 数 
批 次 大 小 : 每 次 训练 的 数据 量 


所 有 的 参数 组 成 一 个 字典 ， 传 入 Scikit-learn 
的 GridSearchcv X: GridSearchcv 会 对 每 组 参数 (2x3x3x3) 进行 训练 ， 进 
行 3 折 交 又 检验 。 


计算 量 巨 大 : 耗 时 巨 长 。 如 果 模 型 小 还 可 以 取 一 部 分 数据 试 试 。 第 7 章 的 模型 可 以 
用 ， 因 为 网 络 和 数据 集 都 不 大 (1000 个 数据 内 ，9 个 参数 ) 。 最 后 scikit-learn 会 输 
出 最 好 的 参数 和 模型 ， 以 及 平均 值 。 


4 MLP for Pima Indians Dataset with grid search via sklearn 
from keras.models import Sequential 
from keras.layers import Dense 
from keras.wrappers.scikit_learn import KerasClassifier 
from sklearn.grid_search import GridSearchCV 
import numpy 
import pandas 
# Function to create model, required for KerasClassifier 
def create model(optimizer-'rmsprop', init='glorot_uniform'): 
4 create model 
model - Sequential() 
model.add(Dense(12, input dim-z8, init-init, activation-'relu' 
)) model.add(Dense(8, init-init, activation='relu')) model.add(D 
ense(1, init-init, activation='sigmoid')) 
# Compile model 
model.compile(loss='binary_crossentropy', optimizer=optimize 
r, metrics=['accuracy']) return model 
# fix random seed for reproducibility 
seed = 7 
numpy . random. seed( seed) 
# load pima indians dataset 
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=" 
E 
了 
# split into input (X) and output (Y) variables 
X = dataset[:,0:8] 
Y = dataset[:,8] 
# create model 
model = KerasClassifier(build fn-create model) 
# grid search epochs, batch size and optimizer 
optimizers - ['rmsprop', 'adam'] 
init = ['glorot uniform', 'normal', 'uniform'] 
epochs - numpy.array([50, 100, 150]) 
batches = numpy.array([5, 10, 20]) 
param grid = dict(optimizer-optimizers, nb epochzepochs, batch s 
ize-batches, init=init) grid = GridSearchCV(estimator=model, par 
am grid-param grid) 
grid result - grid.fit(X, Y) 
4 summarize results 
print("Best: %f using %s" 96 (grid result.best score , grid resul 
t.best params )) 
for params, mean score, scores in grid result.grid scores : 
print("%f (96f) with: 96r" % (scores.mean(), scores.std(), par 
ams ) ) 


E m =: 


用 CPU 差不多 要 5 分 钟 ， 结 果 如 下 。 我 们 发 现 使 用 均匀 分 布 初始 化 ， rmsprop 优 
化 算法 ，150 轮 ， 批 尺寸 为 5 时 效果 最 好 ， 正 确 率 约 75% : 


第 9 章 使 用 Scikit-Learn 调 用 Keras 的 模型 


Best: 0.751302 using {'init': 'uniform', 'optimizer': 'rmsprop', 

"nbsepoch: 150. "batchoszze + 5} 

0.653646 (0.031948) with: {'init': 'glorot uniform', 'optimizer' 
'rmsprop', 'nb _ epoch': 50, 'batch_size': 5} 

0.665365 (0.004872) with: {'init': 'glorot uniform', 'optimizer' 
'adam', 'nb epoch': 50, 'batch size': 5) 

0:683594 10:037602) With: 4 init”: ‘glorot uniform, “optimizer” 
'rmsprop', nb epoch': 100, 'batch size': 5} 

0.709635 (0.034987) with: {'init': 'glorot uniform', 'optimizer' 
'adam', 'nb epoch': 100, 'batch size': 5} 

0.699219 (0.009568) with: A Tne "glorot- uniform. “optimizer, 
Apmsprop  nbcepoch s 450. “batch size": 5} 

0.725260 (0.008027) with: txmxt.- ~glorotluniform:.. optimizer’ 
'adam', 'nb epoch': 150, 'batch size': 5} 

0.686198 (0.024774) with: ('init': 'normal', 'optimizer': 'rmspr 

op', 'nb epoch': 50, 'batch size': 5) 

0.718750 (0.014616) with: £'znxt'- ‘normal’, “optimizer*: ‘adam’ 

; 'nb_epoch': 50, "batch size’: 54 

0.725260 (0.028940) with: {'init': 'normal', 'optimizer': 'rmspr 

op’, 'nb-epoch': 100, “batch size": 5j 

0.727865 (0.028764) with: {'init': ‘normal’, "optimizer '- “adam 

; HWmb-epoch':- 100, “batch size": 5} 

0.748698 (0.035849) with: {'init': 'normal', 'optimizer': 'rmspr 

ep". ‘nbsepoch’ = 150. “batchisize’ 5y 

0.712240 (0.039623) with: {'init’: ‘normal’, ‘optimizer’: ‘adam’ 

;, fMblepoch’: 150. “batch size: 5} 

0.699219 (0.024910) with: ['init': 'uniform', 'optimizer': 'rmsp 

rop', 'nb epoch': 50, 'batch size': 5) 

0-709125 (0.011500) with: t nmt “uniform, "optimizer ^: "adam. 

, nb epoch': 50, 'batch size': 5) 

9:720052 007015073) with: Yace - ungstrorm»- “Optimizer. : ms 

rop. *nb-epoch^: 100, “baten size’: 5} 

0.712240 (0.034987) with: inic: ‘uniform’, ‘optimizer’: ‘adam’ 

, nb epoch': 100, ‘batch size': 5} 

9751302 (0:031466) with: Tne s Umnafiomm optimizer .ms 

rop. *"nb-cepoch': 150, "batcehssrze : 5} 

0.794275 (0.038273) with: { pre v “uniform ^, “optimizer: “adam: 

p huaboepoch : 150, "batch-size"'* 5} 


_ pee———————————— KT e£ 
9.4 š 2 
本 章 关 于 使 用 scikit-learn 封 装 并 测试 神经 网 络 的 性 能 。 总 结 一 下 : 

e 如 何 使 用 scikit-learn 封 装 Keras 模 型 


e 如 何 使 用 scikit-learn 测 试 Keras 模 型 的 性 能 
e 如 何 使 用 scikit-learn 调 整 Keras 模 型 的 超 参 


使 用 scikit-learn 调 整 参数 比 手 工 调用 Keras 简 便 的 多 。 


9.4.1 下 一 章 
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现在 你 已 经 知道 如 何如 何在 scikit-learn 调 用 Keras 模 型 : 可 以 开工 了 。 接 下 来 几 章 我 
们 会 用 Keras 创 造 不 同 的 端 到 端 模型 ， 从 多 类 分 类 问题 开始 。 


第 10 章 项 目 : 多 类 花 采 分 类 
本 章 我 们 使 用 Keras 为 多 类 分 类 开发 并 验证 一 个 神经 网 络 。 本 章 包 括 : 
e 将 CSV 导 入 Keras 


e 为 Keras 预 处 理 数 据 
e 使 用 scikit-learn 验 证 Keras 模 型 


我 们 开始 吧 。 


10.1 将 尾 花 分 类 数据 集 


FERINA ER EA EAE & o eee NM 
都 是 数字 ， 量 纲 都 是 厘米 。 每 个 数据 代表 花 采 的 不 同 参 数 ， 输 出 是 分 类 结果 。 nd 
的 属性 是 (厘米 ) 


SRKE 
Se RE 
. AUR KR 
. 花 准 宽度 
X 
这 个 问题 是 多 类 分 类 的 : 有 两 种 以 上 的 类 别 需 要 预测 ， 确 切 的 说 ，3 种 。 这 种 问题 
需要 对 神经 网 络 做 出 特殊 调整 。 数 据 有 150 条 : 前 5 行 是 : 


ee 


5,1.4,0.2,Iris-setosa 
9,1.4,0.2,Iris-setosa 
2,1.3,0.2,Iris-setosa 
1.1.5 0.2, Iris-setosa 
6: 14, 05 2, Iris- setosa 


app + O 
GOON OF 
WWW C0. 上 


将 尾 花 数据 集 已 经 被 充分 研究 ， 模 型 的 准确 率 可 以 达到 95% 到 97%， 作 为 目标 很 不 
错 。 本 书 的 data 目 录 下 附带 了 示例 代码 和 数据 ， 也 可 以 从 UCI 机 器 学 习 网 站 下 载 ， 
重 命名 为 iris.csv 。 数 据 集 的 详情 请 在 UCI 机 器 学 习 网 站 查询 。 


10.2 导入 库 和 遂 数 


我 们 导入 所 需要 的 库 和 六 数 ， 和 包括 深度 学 习 包 Keras、 数 据 处 理 包 pandas 和 模型 测 
iX &,scikit-learn ° 


import numpy 

import pandas 

from keras.models import Sequential 

from keras.layers import Dense 

from keras.wrappers.scikit_learn import KerasClassifier 
from keras.utils import np_utils 

from sklearn.cross_validation import cross_val_score 
from sklearn.cross_validation import KFold 

from sklearn.preprocessing import LabelEncoder 

from sklearn.pipeline import Pipeline 


10.3 指定 随机 数 种 子 


我 们 指定 一 个 随机 数 种 子 ， 这 样 重复 运行 的 结果 会 一 致 ， 以 便 复 现 随 机 梯度 下 降 的 
结果 : 


# fix random seed for reproducibility 
seed = 7 
numpy.random.seed(seed) 


10.4 寻 入 数据 


数据 可 以 直接 导入 。 因 为 数据 包含 字符 ， 用 pandas 更 容易 。 然 后 可 以 将 数据 的 属性 
(5]) 分 成 输入 变量 X) 和 输出 变量 (Y) : 


# load dataset 

dataframe = pandas.read_csv("iris.csv", headerzNone) 
dataset = dataframe.values 

X = dataset[:,0:4].astype(float) 

Y = dataset[:,4] 


10.5 输出 变量 编码 
数据 的 类 型 是 字符 串 : 在 使 用 神经 网 络 时 应 该 将 类 别 编码 成 矩阵 ， 每 行 每 列 代表 所 
属 类 别 。 可 以 使 用 独 热 编码 ， 或 者 加 入 一 列 。 这 个 数据 中 有 3 个 类 


别 : Iris-setosa ` Iris-versicolor 和 Iris-virginica 。 如 果 数 据 是 


Iris-setosa 
Iris-versicolor 
Iris-virginica 


用 独 热 编码 可 以 编码 成 这 种 矩阵 : 


Iris-setosa, Iris-versicolor, Iris-virginica 1, 0, 0 
Ol D 
0, 0, 1 


scikit-learn 的 LabelEncoder 可 以 将 类 别 变 成 数字 ， 然 后 用 Keras 
的 to categorical() 有 函数 编码 : 


# encode class values as integers 

encoder = LabelEncoder() 

encoder .fit(Y) 

encoded Y = encoder.transform(Y) 

# convert integers to dummy variables (i.e. one hot encoded) 
dummy y = np utils.to categorical(encoded Y) 


10.6 设计 神经 网 络 


Keras 提 供 了 KerasClassifier ， 可 以 将 网 络 封装 ， 在 scikit-learn 上 
用 。 KerasClassifier 的 初始 化 变量 是 模型 名 称 ， 返 回 供 训练 的 神经 网 络 模型 。 


我 们 写 一 个 函数 ， 为 殴 尾 花 分 类 问题 创建 一 个 神经 网 络 : 这 个 全 连接 网 络 只 有 1 个 
带 有 4 个 神经 元 的 隐 层 ， 和 输入 的 变量 数 相同 。 为 了 效果 ， 隐 层 使 用 整流 函数 作为 
激活 函数 。 因 为 我 们 用 了 独 热 编码 ， 网 络 的 输出 必须 是 3 个 变量 ， 每 个 变量 代表 一 
种 花 ， 最 大 的 变量 代表 预测 种 类 。 网 络 的 结构 是 : 


4 个 神经 元 输入 层 -> [4 个 神经 元 BRA] -> 3 个 神经 元 输出 层 


输出 层 的 函数 是 S 型 函数 ， 把 可 能 性 映射 到 概率 的 0 到 1。 优 化 算法 选择 ADAM 随 机 
梯度 下 降 ， 损 失 了 有 函数 是 对 数 函 数 ， 在 Keras 中 叫 categorical crossentropy 


# define baseline model 
def baseline model(): 
# create model 
model = Sequential() 
model.add(Dense(4, input_dim=4, init='normal', activation='r 
elu')) model.add(Dense(3, init='normal', activation='sigmoid')) 
# Compile model 
model.compile(loss-'categorical crossentropy', optimizer-'ad 
am', metrics-['accuracy']) return model 


可 以 用 这 个 模型 创建 KerasClassifier ， 也 可 以 传 入 其 他 参数 ， 这 些 参 数 会 传递 
到 fit) 有 函数 中 。 我 们 将 训练 次 数 nb epoch 设 成 150， 批 尺寸 batch size ik 
成 5， verbose 设 成 0 以 关闭 调试 信息 : 


estimator = KerasClassifier(build fn-baseline model, nb_epoch=200 
, batch size-5, verbose=0) 


El = ^] 








10.7 用 K 折 交叉 检验 测试 模型 
现在 可 以 测试 模型 效果 了 。scikit-learn 有 很 多 种 办 法 可 以 测试 模型 ， 其 中 最 重要 的 


就 是 K 折 检验 。 我 们 先 设 定 模型 的 测试 方法 : K 设 为 10 (默认 值 很 好 ) > ADS AT 
随机 重 排 数 据 : 


kfold = KFold(n=len(X), n_folds=10, shuffle=True, random state=s 
eed) 


这 样 我 们 就 可 以 在 数据 案 ( X 和 dummy y ) 上 用 10 折 交 又 检验 ( kfold ) 测试 
性 能 了 。 模 型 需要 10 秒 钟 就 可 以 跑 完 ， 每 次 检验 输出 结果 : 


results = cross_val_score(estimator, X, dummy_y, cv=kfold) 
print("Accuracy: %.2f%% (%.2f%%)" 96 (results.mean()*100, results 
.Std( )*100)) 


输出 结果 的 均值 和 标准 差 ， 这 样 可 以 验证 模型 的 预测 能 力 ， 效 果 拔 群 : 


Baseline: 95.33% (4.27%) 


10.8 总 结 
本 章 关 于 使 用 Keras 开 发 深度 学 习 项 目 。 总 结 一 下 : 


e 如 何 导 入 数据 

e 如 何 使 用 独 热 编码 处 理 多 类 分 类 数据 

e 如 何 与 Scikit-learn 一 同 使 用 Keras 

e 如 何 用 Keras 定 义 多 — x 分 类 神经 网 络 

e 如 何 用 Scikit-learn 通 过 K 折 交叉 检验 测试 Keras 的 模型 


10.8.1 下 一 章 
本 章 完 整 描 述 了 Keras 项 目的 开发 : 下 一 章 我 们 开发 一 个 二 分 类 网 络 ， 并 调 优 。 


第 11 章 项 目 : 声呐 返回 值 分 类 
本 章 我 们 使 用 Keras 开 发 一 个 二 分 类 网 络 。 本 章 包 括 : 


e 将 数据 导入 Keras 

° 为 表格 数据 定义 并 训练 模型 

e 在 未 知 数据 上 测试 Keras 模 型 的 性 能 
e 处 理 数据 以 提高 准确 率 

e 调整 Keras 模 型 的 拓扑 和 配置 


我 们 开始 吧 。 


11.1 声呐 物体 分 类 数据 


本 章 使 用 声呐 数据 ， 包 括 声 呐 在 不 同 物体 的 返回 ° 数据 有 60 个 变量 ， 代 表 不 同 角 度 
的 返回 值 。 目 标 是 将 石头 和 金属 简 (矿石 ) 分 开 。 


所 有 的 数据 都 是 连续 的 ， 从 0 到 1 ; 输出 变量 中 M 代 表 矿 石 ，R 代 表 石 头 ， 需 要 转换 
为 1 和 0。 数据 集 有 208 条 数据 ， 在 本 书 的 data 目 录 下 ， 也 可 以 自行 下 载 ， 重 命名 


为 sonar.csv ° 


此 数据 集 可 以 作为 性 能 测试 标准 : 我 们 知道 什么 程度 的 准确 率 代表 模型 是 优秀 的 。 
交叉 检验 后 ， 一 般 的 网 络 可 以 达到 84% 的 准确 诗 ， 了 最 高 可 以 达到 88%。 关 于 数据 集 
详情 ， 请 到 UCI 机 器 学 习 网 站 查看 。 


11.2 简单 的 神经 网 络 
先 创建 一 个 简单 的 神经 网 络 试 试看 。 导 入 所 有 的 库 和 部 数 : 


import numpy 

import pandas 

from keras.models import Sequential 

from keras.layers import Dense 

from keras.wrappers.scikit_learn import KerasClassifier 
from sklearn.cross_validation import cross_val_score 
from sklearn.preprocessing import LabelEncoder 

from sklearn.cross_validation import StratifiedKFold 
from sklearn.preprocessing import StandardScaler 

from sklearn.pipeline import Pipeline 


初始 化 随机 数 种 子 ， 这 样 每 次 的 结果 都 一 样 ， 帮 助 debug : 


# fix random seed for reproducibility 
seed - 
numpy.random.seed(seed) 


用 pandas 读 入 数据 : 前 60 列 是 输入 变量 (X) ， 最 后 一 列 是 输出 变量 (Y) ° 
pandas 处 理 带 字符 的 数据 比 NumPy 更 容易 。 


# load dataset 

dataframe = pandas.read csv("sonar.csv", header=None) 
dataset = dataframe.values 

# split into input (X) and output (Y) variables 

X = dataset[:,0:60].astype(float) 

Y = dataset[:,60] 


输出 变量 现在 是 字符 串 : 需要 编码 成 数字 0 和 1。scikitrlearn 的 LabelEncoder 可 以 
做 到 : 先 将 数据 用 fit() 方法 导入 ， 然 后 用 transform() BRAY? WA 
列 : 


# encode class values as integers 
encoder = LabelEncoder() 
encoder.fit(Y) 

encoded Y - encoder.transform(Y) 


现在 可 以 用 Keras 创 建 神经 网 络 模 型 了 。 我 们 用 scikit-learn 进 行 随机 K 折 验证 ， 测 试 
模型 效果 。Keras 的 模型 用 Kerasclassifier 封装 后 可 以 在 scikit-learn 中 调用 ， 
取 的 变量 建立 的 模型 ; 其 他 变量 会 传 入 fit() 方法 中 ， 例 如 训练 次 数 和 批 尺 寸 。 
我 们 写 一 个 函数 创建 这 个 模型 : 只 有 一 个 全 连接 层 ， 和 神经 元 数量 和 输入 变量 数 一 
样 ， 作 为 最 基础 的 模型 。 


模型 的 权重 是 比较 小 的 高 斯 随机 数 ， 激 活 函 数 是 整流 函数 ， 输 出 层 只 有 一 个 神经 
元 ， 激 活 有 函数 是 S 型 函数 ， 代 表 某 个 类 的 概率 。 损 失 函 数 还 是 对 数 损 失 有 函数 

( binary crossentropy ) ， 这 个 函数 适用 于 二 分 类 问题 。 优 化 算法 是 Adam 随 
机 梯度 下 降 ， 每 轮 收集 模型 的 准确 率 。 


# baseline model 
def create baseline(): 
# create model 

model - Sequential() 

model.add(Dense(60, input dim-60, init-'normal', activation- 
'relu')) model.add(Dense(1, init-'normal', activation='sigmoid' ) 
) 
4 Compile model 

model.compile(loss-'binary crossentropy', optimizer-'adam', 
metrics-['accuracy']) return model 


用 scikit-learn 测 试 一 下 模型 。 向 KerasClassifier 传 入 训练 次 数 (RUE) ° X 
闭 日 志 : 


# evaluate model with standardized dataset 

estimator = KerasClassifier(build_fn=create_baseline, nb_epoch=1 
00, batch size-5, verbose=0) 

kfold = StratifiedKFold(y-encoded Y, n folds-10, shuffle=True, r 
andom state-seed) 

results - cross val score(estimator, X, encoded Y, cv-kfold) 
print("Results: 96.2f996 (96.2f996)" % (results.mean()*100, results. 
std()*100)) 


输出 内 容 是 测试 的 平均 数 和 标准 差 。 


Baseline: 81.68% (5.67%) 
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11.3 预 处 理 数据 以 增加 性 能 


预 处 理 数据 是 个 好 习惯 。 神 经 网 络 音 欢 输入 类 型 的 比例 和 分 布 一 致 ， 为 了 达到 这 
可 以 使 用 正则 化 ， 让 数据 的 平均 值 是 0， 标 准 差 是 1， 这 样 可 以 保留 数据 的 分 布 情 
况 。 


scikit-learn 的 StandardScaler 可 以 做 到 这 点 。 不 应 该 在 整个 数据 集 上 直接 应 用 正 
WU : 应 该 只 在 测试 数据 上 交叉 验证 时 进行 正则 化 处 理 ， 使 正则 化 成 为 交叉 验证 的 
一 环 ， 让 模型 没有 新 数据 的 先 验 知识 ， 防 止 模型 发 散 。 


scikit-learn 的 Pipeline 可 以 直接 做 到 这 些 。 我 们 先 定义 一 
个 StandardScaler ， 然 后 进行 验证 : 


# evaluate baseline model with standardized dataset 
numpy.random.seed(seed) 
estimators - [] 
estimators.append(('standardize', StandardScaler())) 
estimators.append(('mlp', KerasClassifier(build fn-create baseli 
ne, nb epoch-100, 

batch size-5, verbose=0) )) 
pipeline - Pipeline(estimators) 
kfold = StratifiedKFold(y-encoded Y, n folds-10, shuffle=True, r 
andom state-seed) 
results = cross val score(pipeline, X, encoded Y, cv=kfold) 
print("Standardized: 96.2f996 (96.2f996)" % (results.mean()*100, res 
ults.std()*100)) 


结果 如 下 ， 平 均 效 果 有 一 点 进步 。 


Standardized: 84.07% (6.23%) 


11.4 调整 模型 的 拓扑 和 神经 元 


神经 网 络 有 很 多 参数 ， 例 如 初始 化 权重 、 激 活 函 数 、 优 化 算法 等 等 。 我 们 一 直 没 有 
说 到 调整 网 络 的 拓扑 结构 : 扩大 或 缩小 网 络 。 我 们 试验 一 下 : 


11.4.1 缩小 网 络 


A TARE? ATR: 原始 数据 是 不 同 角 度 的 信号 ， 有 可 能 其 中 某 些 角度 有 相关 
性 。 我 们 把 第 一 层 隐 层 缩小 一 些 ， 强 行 提 取 特 征 试 试 。 


我 们 把 之 前 的 模型 隐 层 的 60 个 神经 元 减 半 到 30 个 ， 这 样 神经 网 络 需要 挑选 最 重要 的 
信息 。 之 前 的 正则 化 有 效果 : 我 们 也 一 并 做 一 下 . 


# smaller model 
def create smaller(): 

# create model 

model - Sequential() 

model.add(Dense(30, input dimz60, init='normal', activation- 
'relu')) model.add(Dense(1, init-'normal', activation='sigmoid' ) 
) 

# Compile model 

model.compile(loss='binary_crossentropy', optimizer='adam', 
metrics-['accuracy']) return model 
numpy.random.seed(seed) 
estimators - [] 
estimators.append(('standardize', StandardScaler())) 
estimators.append(('mlp', KerasClassifier(build fn-create smalle 
r, nb epoch-100, 

batch size-5, verbose-z0))) 
pipeline - Pipeline(estimators) 
kfold = StratifiedKFold(y-encoded Y, n folds-10, shuffle=True, r 
andom state-seed) 
results = cross val score(pipeline, X, encoded Y, cv=kfold) 
print("Smaller: 96.2f996 (96.2f996)" % (results.mean()*100, results. 
std()*100)) 


结果 如 下 。 平 均值 有 少许 提升 ， 方 差 减少 很 多 : 这 么 做 果然 有 效 ， 因 为 这 次 的 训练 
时 间 只 需要 之 前 的 一 半 | 


Smaller: 84.61% (4.65%) 


11.4.2 扩大 网 络 


扩大 网 络 后 ， 神 经 网 络 更 有 可 能 提取 关键 特征 ， 以 非 线 性 方式 组 合 。 我 们 对 之 前 的 
网 络 简 单 修改 一 下 : 在 原来 的 隐 层 后 加 入 一 层 30 个 神经 元 的 隐 层 。 现 在 的 网 络 是 : 


60 inputs -> [60 -> 30] -> 1 output 


我 们 希望 在 缩减 信息 前 可 以 对 所 有 的 变量 建 模 ， 和 缩小 网 络 时 的 想法 类 似 。 这 次 我 
们 加 一 层 ， 帮 助 网 络 挑选 信息 : 


# larger model 
def create larger(): 

# create model 

model - Sequential() 

model.add(Dense(60, input dim-60, init-'normal', activation- 
'relu')) model.add(Dense(30, init='normal', activation='relu')) 
model.add(Dense(1, init='normal', activation-'sigmoid')) 

4 Compile model 

model.compile(loss-'binary crossentropy', optimizer-'adam', 
metrics-['accuracy']) return model 
numpy.random.seed(seed) 
estimators - [] 
estimators.append(('standardize', StandardScaler())) 
estimators.append(('mlp', KerasClassifier(build fn-create larger 
, nb epoch-100, 

batch size-5, verbose=0))) 
pipeline - Pipeline(estimators) 
kfold = StratifiedKFold(y-zencoded Y, n folds-10, shuffle=True, r 
andom state-seed) 
results = cross val score(pipeline, X, encoded Y, cv=kfold) 
print("Larger: %.2f%% (%.2f%%)" % (results.mean()*100, results.s 
td()*100)) 


这 次 的 结果 好 了 很 多 ， 几 乎 达到 业界 最 优 。 


Larger: 86.47% (3.82%) 


继续 微调 网 络 的 结果 会 更 好 。 你 能 做 到 如 何 ? 


11.5 š 2 
本 章 关 于 使 用 Keras 开 发 二 分 类 深度 学 习 项 目 。 总 结 一 下 : 


如 何 导 入 数据 

如 何 创 建 基准 模型 

如 何 用 Scikit-learn 通 过 K 折 随机 交叉 检验 测试 Keras 的 模型 
如 何 预 处 理 数 据 

如 何 微调 网 络 


多 分 类 和 二 分 类 介绍 完了 : 下 一 章 是 回归 问题 。 


$123 HRA: 波士顿 住房 价格 回归 


本 章 关 于 如 何 使 用 Keras 和 社交 网 络 解决 回归 问题 。 本 章 将 : 


e 导入 CSV 数 据 
e 创建 回归 问题 的 神经 网 络 模 型 
e 使 用 Scikit-learn 对 Keras 的 模型 进行 交叉 验证 
e 预 处 理 数据 以 增加 效果 
e 微调 网 络 参数 
我 们 开始 吧 。 


12.1 波士顿 住房 价格 数据 


本 章 我 们 研究 波士顿 住房 价格 数据 集 ， 即 波士顿 地 区 的 住房 信息 。 我 们 关心 的 是 住 
房价 格 ， 单 位 是 千 美金 : 所 以 ， 这 个 问题 是 回归 问题 。 数 据 有 13 个 输入 变量 ， 代 表 
房屋 不 同 的 属性 : 


. CRIM : 人 均 犯 罪 率 

. ZN : 25,000 平 方 英尺 以 上 民用 土地 的 比例 
INDUS : 城镇 非 零售 业 商 用 土地 比例 

CHAS : 是 否 邻近 查尔斯 河 ，1 是 邻近 ，0 是 不 邻近 
NOX: 一 氧化 所 浓度 ( 千 万 分 之 一 ) 

. RM : 住宅 的 平均 房间 数 

AGE : 自 住 且 建 于 1940 年 前 的 房屋 比例 

. DIS : 到 5 个 波士顿 就 业 中 心 的 加 权 距 离 

. RAD: 到 高 速 公路 的 便捷 度 指 数 

10. TAX : 每 万 元 的 房产 税率 

11. PTRATIO : 城镇 学 生 教 师 比 例 

12. B: 1000(Bk - 0.63)2 其 中 Bk 是 城镇 中 黑人 比例 
13. LSTAT : 低 收入 人 群 比例 

14. MEDV : 自 住房 中 位 数 价格 ， 单 位 是 千 元 


这 个 问题 已 经 被 深入 研究 过 ， 所 有 的 数据 都 是 数字 。 数 据 的 前 5 行 是 : 


tO Oo — O Q > @ Nə — 


0.00632. 1800 2 5910 010 53600. 5/750" 65.20 4.090071 29070 15.3075 
96.90 4.98 24.00 
-02731 0.00 7.070 0 0.4690 6.4210 78.90 4.9671 2 242.0 17.80.39 
:90 9 1412160 
202729 0:00 7,070-0.0.;4690. 7.1350 51.10.4.9071 2 242 0 17.80 39 
.83 4.03 34.70 
.03237 0.00 2.180 0.0.4580 6.9990 45.90 6.0622 3 222.0 18.70 39 
.63 2.94 33.40 
496905 0.00 2.1799 0 0.4580 7.24/70 54.20 6.0022 9 222.0 18 70 39 
9055 39596720 
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数据 在 本 书 的 data 目 录 下 ， 也 可 以 自行 下 载 ， 重 命名 为 housing.csv 。 普 通 模型 
的 均 方 误差 (MSE) 大 约 是 20， 和 方差 (SSE) 是 $4,500 美 金 。 关 于 数据 集 详情 ， 
请 到 UCI 机 器 学 习 网 站 查看 。 


12.2 简单 的 神经 网 络 
先 创建 一 个 简单 的 回归 神经 网 络 。 导 入 所 有 的 库 和 函 


Import numpy 

import pandas 

from keras.models import Sequential 

from keras.layers import Dense 

from keras.wrappers.scikit_learn import KerasRegressor 
from sklearn.cross_validation import cross_val_score 
from sklearn.cross_validation import KFold 

from sklearn.preprocessing import StandardScaler 

from sklearn.pipeline import Pipeline 


源 文件 是 CSV 格 式 ， 隔 符 是 空格 : 可 以 用 pandas 导 入 ， 然 后 分 成 输入 (X) fedi 
H (Y) 变量 。 


# load dataset 

dataframe = pandas.read csv("housing.csv", delim whitespace-True 
, headerzNone) 

dataset - dataframe.values 

# split into input (X) and output (Y) variables 

X = dataset[:,0:13] 

Y dataset[:,13] 


Keras 可 以 把 模型 封装 好 ， 交 给 scikit-learn 使 用 ， 方 便 测 试 模 型 。 我 们 写 一 个 函数 ， 
建 神经 网 络 。 


有 一 个 全 连接 层 ， 神 经 元 数量 和 输入 变量 数 一 臻 《13) > AERA 
整流 函数 。 输 出 层 没 有 激活 函数 ， 因 为 在 回归 问题 中 我 们 希望 直接 取 结 果 。 


优化 函数 是 Adam， 损 失 壤 数 是 MSE， 和 我 们 要 优化 的 郊 数 一 致 : 这 样 可 以 对 模型 
的 预测 有 直观 的 理解 ， 因 为 MSE 乘 方 就 是 千 美 元 计 的 误差 。 


# define base mode 
def baseline model(): 

4 create model 

model - Sequential() 

model.add(Dense(13, input dim-13, init-'normal', activation- 
'relu')) model.add(Dense(1, init='normal')) 

4 Compile model 

model.compile(loss-'mean squared error', optimizer-'adam') r 

eturn model 


使 用 KerasRegressor 封装 这 个 模型 ， 任 何其 他 的 变量 都 会 传 入 fit() 函数 中 ， 
例如 训练 次 数 和 批 次 大 小 ， 这 里 我 们 取 默 认 值 。 老 规矩 ， 为 了 可 以 复 现 结果 ， 指 定 
一 下 随机 数 种 子 : 


# fix random seed for reproducibility 

seed = 7 

numpy.random.seed(seed) 

4 evaluate model with standardized dataset 

estimator = KerasRegressor(build fn-baseline model, nb_epoch=100 
, batch size-5, verbose=0) 


可 以 测试 一 下 基准 模型 的 结果 了 : 用 10 折 交叉 检验 看 看 。 


kfold = KFold(n=len(X), n_folds=10, random_state=seed) 

results = cross val score(estimator, X, Y, cv-kfold) 
print("Results: %.2f (%.2f) MSE" 96 (results.mean(), results.std( 
))) 


结果 是 10 次 检验 的 误差 均值 和 标准 差 。 


Results: 38.04 (28.15) MSE 


12.3 预 处 理 数 据 以 增加 性 能 
这 个 数据 集 的 特点 是 变量 的 尺度 不 一 致 ， 所 以 标准 化 很 有 用 。 


scikit-learn 的 Pipeline 可 以 直接 进行 均一 化 处 理 并 交叉 检验 ， 这 样 模型 不 会 预先 
知道 新 的 数据 。 代 码 如 下 : 


4 evaluate model with standardized dataset 
numpy.random.seed(seed) 
estimators - [] 
estimators.append(('standardize', StandardScaler())) 
estimators.append(('mlp', KerasRegressor(build fn-baseline model 
, nb epoch-50, 

batch size-5, verbose-0))) 
pipeline - Pipeline(estimators) 
kfold = KFold(n-len(X), n folds-i0, random state-seed) 
results - cross val score(pipeline, X, Y, cv-kfold) 
print("Standardized: 96.2f (9?6.2f) MSE" % (results.mean(), results 
.std())) 


效果 直接 好 了 一 万 刀 : 
Standardized: 28.24 (26.25) MSE 
也 可 以 将 数据 标准 化 ， 在 最 后 一 层 用 S 型 防 数 作为 激活 函数 ， 将 比例 拉 到 一 样 。 


12.4 调整 模型 的 拓扑 


神经 网 络 有 很 多 可 调 的 参数 : 最 可 玩 的 是 网 络 的 结构 。 这 次 我 们 用 一 个 更 深 的 和 一 
个 更 宽 的 模型 试 试 © 


12.4.1 更 深 的 模型 


增加 神经 网 络 的 层 数 可 以 提高 效果 ， 这 样 模型 可 以 提取 并 组 合 更 多 的 特征 。 我 们 试 
着 加 几 层 隐 层 : 加 几 和 句 话 就 行 。 代 码 从 上 面 复制 下 来 ， 在 第 一 层 后 加 一 层 隐 层 ， 神 
经 元 数量 是 上 层 的 一 半 : 


def larger model(): 

# create model 

model - Sequential() 

model.add(Dense(13, input dim-13, init-'normal', activation- 
'relu')) model.add(Dense(6, init='normal', activation-'relu')) m 
odel.add(Dense(1, init='normal')) 

4 Compile model 

model.compile(loss-'mean squared error', optimizer-'adam') r 

eturn model 


这 样 的 结构 是 : 


13 inputs -> [13 -> 6] -> 1 output 


测试 的 方法 一 样 ， 数 据 正则 化 一 下 : 


numpy.random.seed(seed) 
estimators - [] 
estimators.append(('standardize', StandardScaler())) 
estimators.append(('mlp', KerasRegressor(build fn-larger model, 
nb epoch-50, batch size-5, 

verbosez0))) 
pipeline - Pipeline(estimators) 
kfold = KFold(n-len(X), n folds-1i0, random state-seed) 
results - cross val score(pipeline, X, Y, cv-kfold) 
print("Larger: %.2f (%.2f) MSE" % (results.mean(), results.std() 
)) 


效果 好 了 一 点 ，MSE 从 28 变 成 24 : 


Larger: 24.60 (25.65) MSE 


12.4.1 更 宽 的 模型 


加 宽 模 型 可 以 增加 网 络 容量 。 我 们 减 去 一 层 ， 把 隐 层 的 神经 元 数量 加 大 ， 从 13 加 到 
20: 


def wider model(): 

4 create model 

model - Sequential() 

model.add(Dense(20, input dim-13, init-'normal', activation- 
'relu')) model.add(Dense(1, init='normal')) 

# Compile model 

model.compile(loss='mean_squared_error', optimizer='adam') r 
eturn model 


网 络 的 结构 是 : 


13 inputs -> [20] -> 1 output 


numpy.random.seed(seed) 
estimators - [] 
estimators.append(('standardize', StandardScaler())) 
estimators.append(('mlp', KerasRegressor(build fn-wider model, n 
b epoch-100, batch size-5, 

verbosez0))) 
pipeline - Pipeline(estimators) 
kfold = KFold(n-len(X), n folds-10, random state-seed) 
results - cross val score(pipeline, X, Y, cv-kfold) 
print("Wider: %.2f (%.2f) MSE" 96 (results.mean(), results.std()) 


) 


MSE 下 降 到 21， 效 果 不 错 了 。 


Wider: 21.64 (23.75) MSE 


很 难 想到 ， 加 宽 模 型 比 加 深 模 型 效果 更 好 : 这 就 是 欧 皇 的 力量 。 


12.5 š 2 
本 章 关 于 使 用 Keras 开 发 回归 深度 学 习 项 目 。 总 结 一 下 : 
e 如 何 导 入 数据 


e 如 何 预 处 理 数据 提高 性 能 
o 如 何 调整 网 络 结构 提高 性 能 


12.5.1 下 一 章 


第 三 部 分 到 此 结束 : 你 可 以 处 理 一 般 的 机 器 学 习 问 题 了 。 下 一 章 我 们 用 一 些 奇 技 淫 
巧 ， 使 用 一 些 Keras 的 高 级 API ° 
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$133 用 序列 化 保存 模型 


深度 学 习 的 模型 有 可 能 需要 好 几 天 才能 训练 好 9 如 果 没 有 SL 大 法 就 完蛋 了 2 k= x 
于 如 何 保 存 和 加 载 模型 。 本 章 将 : 


e 使 用 HDF5 格 式 保存 模型 
e 使 用 JSON 格 式 保 存 模型 
e 使 用 YAML 格 式 保 存 模型 


我 们 开始 吧 。 
13.1 简介 


Keras 中 ， 模 型 的 结构 和 权重 数据 是 分 开 的 : 权重 的 文件 格式 是 HDF5， 这 种 格式 保 
存 数字 和 矩阵 效率 很 高 。 模 型 的 结构 用 JSON 或 YAML 叶 入 导出 。 


本 章 包 括 如 何 手 工 修改 HDF5 文 件 ， 使 用 的 模型 是 第 7 章 的 皮 马 人 糖尿 病 模型 。 


13.1.1 HDF5x ^t 


分 层 数 据 格 式 ， 版 本 5 (HDF5) 可 以 高 效 保存 大 实数 和 矩阵， 例如 神经 网 络 的 权重 。 
HDF5 的 包 需 要 安装 : 


sudo pip install h5py 


13.2 使 用 JSON 保 存 网 络 结构 


JSON 的 格式 很 简单 ，Keras 可 以 用 to_json() 把 模型 导出 为 JSON 格 式 ， 再 
用 model_from_json() 加 载 回 来 。 


模型 和 权重 加 载 后 需要 编译 一 次 ， 让 Keras 正 确 调 用 后 端 。 模 型 的 验证 方法 和 之 前 一 臻 


nn 


"python 
# MLP for Pima Indians Dataset serialize to JSON and HDF5 
from keras.models import Sequential 
from keras.layers import Dense 
from keras.models import model from json 
import numpy 


import os 
# fix random seed for reproducibility 
seed - 7 


numpy.random.seed(seed) 
# load pima indians dataset 
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=" 
ue) 
split into input (X) and output (Y) variables 
- dataset[:,0:8] 
- dataset[:,8] 
create model 
model - Sequential() 
model.add(Dense(12, input dim-8, init-'uniform', activation-'rel 
u')) model.add(Dense(8, init='uniform', activation='relu')) 
model.add(Dense(1, init-'uniform', activation='sigmoid' )) 
# Compile model 
model.compile(loss-'binary crossentropy', optimizer-'adam', metr 
ics-['accuracy']) # Fit the model 
model.fit(X, Y, nb epoch-150, batch size-10, verbose-0) 
4 evaluate the model 
scores = model.evaluate(X, Y, verbose=0) 
print("%s: 96.2f996" % (model.metrics names[1], scores[1]*100)) 
4 serialize model to JSON 
model json - model.to json() 
with open("model.json", "w") as json file: 
json file.write(model json) 
# serialize weights to HDF5 
model.save weights("model.h5") 
print("Saved model to disk") 


dk ox * +7 


^ 


# later... 

# load json and create model 

# MLP for Pima Indians Dataset serialize to JSON and HDF5 
from keras.models import Sequential 

from keras.layers import Dense 

from keras.models import model from json 

import numpy 


import os 
4 fix random seed for reproducibility 
seed - 7 


numpy.random.seed(seed) 
4 load pima indians dataset 
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=" 
x 
, 
4 split into input (X) and output (Y) variables 
X = dataset[:,0:8] 
Y = dataset[:,8] 
4 create model 
model - Sequential() 
model.add(Dense(12, input dim-8, init-'uniform', activation-'rel 
u')) model.add(Dense(8, init='uniform', activation='relu')) 
model.add(Dense(1, init-'uniform', activation='sigmoid' )) 
# Compile model 
model.compile(loss='binary_crossentropy', optimizer='adam', metr 
ics=['accuracy']) # Fit the model 
model.fit(X, Y, nb_epoch=150, batch_size=10, verbose=0) 
# evaluate the model 
scores = model.evaluate(X, Y, verbose=0) 
print("%s: %.2—%%" % (model.metrics names[1], scores[1]*100)) 
# serialize model to JSON 
model json = model.to json() 
with open("model.json", "w") as json file: 
json file.write(model json) 
4 serialize weights to HDF5 
model.save weights("model.h5") 
print("Saved model to disk") 
4 later... 
4 load json and create model 


结果 如 下 。 导 入 的 模型 和 之 前 导出 时 一 致 : 


acc: 79.56% 

Saved model to disk 
Loaded model from disk 
acc: 79.5696 


JSONsx HRW : 
{ 
"class name": "Sequential", 
“contig: [yt 


"class_name": "Dense", 
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Com 


wacomstramne :nus 
"b-«constraudint"* null, 
"name": "dense 1", 
"output dim": 12; 
"activity regularizer": null, 
"trainable": true, 
‘ne CUTI f Ola um 
"input dtype": "float32", 
wit lm iS 
"b regularizer": null, 
"W regularizer": null, 
"activation": "relu", 
"batch input shape": [ 
null, 
8 


"class name": "Dense", 
COMME s T 


"Ww constraint": null, 
"b_constraint": null, 
"name": "dense_2", 
"activity regularizer": null, 
"trainable": true, 
dimas oe SOFON 
MARU om = muli 

"b regularizer": null, 
"W regularizer": null, 
"activation": "relu", 
TOME PU JG. 8 


"class_name": "Dense", 
“GON SE 


"W_constraint": null, 
"bsconstraant"* null, 
"name": "dense 3", 
"activity regularizer": null, 
"trainable": true, 

I maia = iu From 
nlm Mul, 

"b regularizer": null, 
"W regularizer": null, 
"activation": "sigmoid", 
Tout pu AIM: a 
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13.3 使 用 YAML 保 存 网 络 结构 


和 之 前 JSON 类 似 ， 只 不 过 文件 格式 变 成 YAML， 使 用 的 函数 变 成 
了 to yaml() 和 model from yaml() 


# MLP for Pima Indians Dataset serialize to YAML and HDF5 
from keras.models import Sequential 

from keras.layers import Dense 

from keras.models import model from yaml 

import numpy 


import os 
# fix random seed for reproducibility 
seed = 7 


numpy.random.seed(seed) 
# load pima indians dataset 
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=" 
1.) 
4 split into input (X) and output (Y) variables 
X = dataset[:,0:8] 
Y = dataset[:,8] 
4 create model 
model - Sequential() 
model.add(Dense(12, input dim-8, init-'uniform', activation-'rel 
u')) model.add(Dense(8, init='uniform', activation='relu')) 
model.add(Dense(1, init-'uniform', activation-'sigmoid')) 
# Compile model 
model.compile(loss='binary_crossentropy', optimizer-'adam', metr 
ics-['accuracy']) # Fit the model 
model.fit(X, Y, nb epoch-150, batch size-10, verbose=0) 
4 evaluate the model 
scores = model.evaluate(X, Y, verbose=0) 
print("%s: %.2f%%" % (model.metrics names[1], scores[1]*100)) 
4 serialize model to YAML 
model yaml - model.to yaml() 
with open("model.yaml", "w") as yaml file: 
yaml file.write(model yaml) 
4 serialize weights to HDF5 
model.save weights("model.h5") 
print("Saved model to disk") 


4 later... 

4 load YAML and create model 

yaml file = open('model.yaml', 'r') loaded model yaml = yaml fil 

e.read() yaml_file.close() 

loaded model = model from yaml(loaded model yaml) # load weights 
into new model loaded model.load weights("model.h5") print("Loa 

ded model from disk") 

4 evaluate loaded model on test data 

loaded model.compile(loss-'binary crossentropy', optimizer-'rmsp 
rop', metrics-['accuracy']) score - loaded model.evaluate(X, Y, 

verbose=0 ) 

print "96s: 96.2f996" % (loaded model.metrics names[1], score[1]*100 


4 a ‘pl 


结果 和 之 前 的 一 样 : 


acc: 79.56% 

Saved model to disk 
Loaded model from disk 
acc: 79.5696 


YAML 文 件 长 这 样 : 


class_name: Sequential 
config: 
- class_name: Dense 
config: 
W_constraint: null 
W_regularizer: null 
activation: relu 
activity_regularizer: null 
b_constraint: null 
b_regularizer: null 
batch_input_shape: !!python/tuple [null, 8] 
init: uniform 
input_dim: 8 
input_dtype: float32 
name: dense 1 
output dim: 12 
trainable: true 
- class name: Dense 
config: (W constraint: null, W regularizer: null, activation: 
relu, activity regularizer: 
LE [UR BI Ps 
b constraint: null, b regularizer: null, init: uniform, inpu 
t dim: null, name: dense 2, 
output dim: 8, trainable: true) 
- class name: Dense 
config: (W constraint: null, W regularizer: null, activation: 
sigmoid, 
activity regularizer: null, 
b constraint: null, b regularizer: null, init: uniform, inpu 
t dim: null, name: dense 3, 
output dim: 1, trainable: true) 


13.4 š 2 
本 章 关 于 导入 导出 Keras 模 型 。 总 结 一 下 : 


e 如 何 用 HDF5 保 存 加 载 权 重 
e 如 何 用 JSON 保 存 加 载 模型 
e 如 何 用 YAML 保 存 加 载 模型 


13.4.1 下 一 章 
模型 可 以 保存 了 : 下 一 章 关 于 使 用 保存 点 。 
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$143 使 用 保存 点 保存 最 好 的 模型 
深度 学 习 有 可 能 需要 跑 很 长 时 间 ， 如 果 中 间断 了 (特别 是 在 竞价 式 实例 上 跑 的 时 
候 ) 就 要 亲 命 了 。 本 章 关于 在 训练 时 中 途 保存 模型 。 本 章 将 : 


e 保存 点 很 重要 | 
e 每 轮 打 保存 点 |! 
e 挑 最 好 的 模型 | 


我 们 开始 吧 。 


14.1 使 用 保存 点 


长 时 间 运 行 的 程序 需要 能 中 途 保存 ， 加 强健 壮 性 。 保 存 的 程序 应 该 可 以 继续 运行 ， 
或 者 直接 运行 。 深 度 学 习 的 保存 点 用 来 存储 模型 的 权重 : 这 样 可 以 继续 训练 ， 或 者 
直接 开始 预测 。 


Keras 有 回调 APl， 配 合 ModelCheckpoint 可 以 每 轮 保存 网 络 信息 ， 可 以 定义 文件 

人 位置、 文件 名 和 保存 时 机 等 。 例 如 ， 损 失 函 数 或 准确 率 达 到 某 个 标准 就 保存 ， 文 件 

名 的 格式 可 以 加 入 时 间 和 准确 率 等 。 ModelCheckpoint 需要 传 入 fit() 函数 ， 
需要 安装 h5py 库 。 


14.2 效果 变 好 就 保存 


好 习惯 : 每 轮 如 果 效 果 变 好 就 保存 一 下 。 还 是 用 第 7 章 的 模型 ， 用 33% 的 数据 测 
试 。 


每 轮 后 在 测试 数据 集 上 验证 ， 如 果 比 之 前 效果 好 就 保存 权重 (monitor='val_acc', 
mode='max') 。 文 件 名 格式 是 weights-improvement-val acc-.2f.hdf5 ° 


# Checkpoint the weights when validation accuracy improves 
from keras.models import Sequential 
from keras.layers import Dense 
from keras.callbacks import ModelCheckpoint 
import matplotlib.pyplot as plt 
import numpy 
# fix random seed for reproducibility 
seed = 7 
numpy.random.seed(seed) 
4 load pima indians dataset 
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=" 
1.) 
4 split into input (X) and output (Y) variables 
X = dataset[:,0:8] 
Y = dataset[:,8] 
4 create model 
model - Sequential() 
model.add(Dense(12, input dim-z8, init='uniform', activation='rel 
u')) 
model.add(Dense(8, init-'uniform', activation='relu')) 
model.add(Dense(1, init-'uniform', activation-'sigmoid')) 
4 Compile model 
model.compile(loss-'binary crossentropy', optimizer-'adam', metr 
ics-['accuracy']) 
4 checkpoint 
filepath="weights-improvement -{epoch:02d}-{val_acc: .2f}.hdf5" 
checkpoint = ModelCheckpoint(filepath, monitor='val_acc', verbos 
e=1, save_best_only=True, 
mode='max' ) 
callbacks_list = [checkpoint] 
# Fit the model 
model.fit(X, Y, validation_split=0.33, nb_epoch=150, batch size- 
10, 
callbacks-callbacks list, verbose=0) 


输出 的 结果 如 下 : 如 果 效 果 更 好 就 保存 。 


Epoch 60134: val_acc did not improve 
Epoch 60135: val_acc did not improve 
Epoch 00136: val acc did not improve 
Epoch 00137: val acc did not improve 
Epoch 00138: val acc did not improve 
Epoch 00139: val acc did not improve 
Epoch 00140: val acc improved from 0.83465 to 0.83858, saving mo 
del to 
weights-improvement-140-0.84.hdf5 
Epoch 00141: val acc did not improve 
Epoch 00142: val acc did not improve 
Epoch 00143: val acc did not improve 
Epoch 00144: val acc did not improve 
Epoch 00145: val acc did not improve 
Epoch 00146: val acc improved from 0.83858 to 0.84252, saving mo 
del to 
weights-improvement-146-0.84.hdf5 
Epoch 00147: val acc did not improve 
Epoch 00148: val acc improved from 0.84252 to 0.84252, saving mo 
del to 
weights-improvement-148-0.84.hdf5 
Epoch 00149: val acc did not improve 


目录 下 会 保存 每 次 的 模型 : 


weights-improvement-74-0.81.hdf5 
weights-improvement-81-0.82.hdf5 
weights-improvement-91-0.82.hdf5 
weights-improvement-93-0.83.hdf5 


这 种 方法 有 效 ， 但 是 文件 较 多 。 当 然 最 好 的 模型 肯定 保存 下 来 了 。 


14.3 保存 最 好 的 模型 


也 可 以 只 保存 最 好 的 模型 : 每 次 如 果 效 果 变 好 就 覆盖 之 前 的 权重 文件 ， 把 之 前 的 文 
件 名 改 成 固定 的 就 可 以 : 


# Checkpoint the weights for best model on validation accuracy 
from keras.models import Sequential 
from keras.layers import Dense 
from keras.callbacks import ModelCheckpoint 
import matplotlib.pyplot as plt 
import numpy 
# fix random seed for reproducibility 
seed = 7 
numpy.random.seed(seed) 
4 load pima indians dataset 
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=" 
1.) 
4 split into input (X) and output (Y) variables 
X = dataset[:,0:8] 
Y = dataset[:,8] 
4 create model 
model - Sequential() 
model.add(Dense(12, input dim-z8, init='uniform', activation='rel 
u')) model.add(Dense(8, init-'uniform', activation-'relu')) mode 
l.add(Dense(i1, init='uniform', activation='sigmoid' )) 
# Compile model 
model.compile(loss='binary_crossentropy', optimizer='adam', metr 
ics-['accuracy']) 
4 checkpoint 
filepath="weights.best.hdf5" 
checkpoint = ModelCheckpoint(filepath, monitor='val_acc', verbos 
e=1, save_best_only=True, 
mode='max' ) 
callbacks_list = [checkpoint] 
# Fit the model 
model.fit(X, Y, validation_split=0.33, nb_epoch=150, batch_size= 
10, 
callbacks=callbacks_list, verbose=0) 


结果 如 下 : 


Epoch 00136: 
Epoch 00137: 
Epoch 00138: 
Epoch 00139: 
Epoch 00140: 


Epoch 00141: 
Epoch 00142: 
Epoch 00143: 
Epoch 00144: 
Epoch 00145: 
Epoch 00146: 


网 络 保存 在 : 


val_acc 
val_acc 
val_acc 
val_acc 
val_acc 


val_acc 
val_acc 
val_acc 
val_acc 
val_acc 
val_acc 


weights.best.hdf5 


14.4 导入 保存 的 模型 


did 
did 
did 
did 


not 
not 
not 
not 


improve 
improve 
improve 
improve 


improved from 9 
del to weights.best.hdf5 


did 
did 
did 
did 
did 


not 
not 
not 
not 
not 


improve 
improve 
improve 
improve 
improve 


improved from 9 
del to weights.best.hdf5 
Epoch 00147: val acc did not improve 
Epoch 00148: val acc improved from 0 
del to weights.best.hdf5 
Epoch 00149: val acc did not improve 


.83465 to 0.83858, 


.83858 to 0.84252, 


.04252 to 0.84252, 


saving mo 


saving mo 


saving mo 


保存 点 只 保存 权重 ， 网 络 结构 需要 预先 保存 。 参 见 第 13 章 ， 代 码 如 下 : 


# How to load and use weights from a checkpoint 

from keras.models import Sequential 

from keras.layers import Dense 

from keras.callbacks import ModelCheckpoint 

import matplotlib.pyplot as plt 

import numpy 

# fix random seed for reproducibility 

seed = 7 

numpy.random.seed(seed) 

# create model 

model = Sequential() 

model.add(Dense(12, input dim-8, init-'uniform', activation-'rel 
u')) model.add(Dense(8, init='uniform', activation='relu')) 

model.add(Dense(1, init-'uniform', activation='sigmoid' )) 

4 load weights 

model.load weights("weights.best.hdf5") 

# Compile model (required to make predictions) model.compile(los 
s='binary_crossentropy', optimizer-'adam', metrics-['accuracy']) 
print("Created model and loaded weights from file") 

4 load pima indians dataset 

dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=" 
r) 

# split into input (X) and output (Y) variables 

X = dataset[:,0:8] 

Y = dataset[:,8] 

# estimate accuracy on whole dataset using loaded weights 

scores = model.evaluate(X, Y, verbose=0) 

print("%s: %.2f%%" % (model.metrics_names[1], scores[1]*100)) 


结果 如 下 : 


Created model and loaded weights from file 
acc: 77.73% 


14.5 总 结 
本 章 关于 在 训练 时 保存 检查 点 。 总 结 一 下 : 


e 如 何在 优化 时 保存 网 络 
e 如 何 保 存 最 好 的 网 络 
e 如 何 导 入 网 络 


14.5.4 下 一 章 
本 章 关于 建立 保存 点 : 下 一 章 关于 在 训练 时 画 性 能 图 表 。 


第 15 章 模型 训练 效果 可 视 化 


查看 训练 效果 的 历史 数据 大 有 和 神 益 。 本 章 关 于 将 模型 的 训练 效果 进行 可 视 化 。 本 章 
BR : 


e 如 何 观察 历史 训练 数据 
o 如 何在 训练 时 绘制 数据 准确 性 图 像 
e 如 何在 训练 时 绘制 损失 图 像 


我 们 开始 吧 。 


15.1 取 历 史 数 据 


上 一 章 说 到 Keras 支 持 回调 API， 其 中 默认 调用 History 函数 ， 每 轮训 练 收集 损失 
和 准确 率 ， 如 果 有 测试 集 ， 也 会 收集 测试 集 的 数据 。 

历史 数据 会 收集 fit() 函数 的 返回 值 ， 在 history 对 象 中 。 看 一 下 到 底 收 集 了 
什么 数据 : 


# list all data in history 
print(history.history.keys()) 


如 果 是 第 7 章 的 二 分 类 问题 : 


['acc', 'loss', 'val-acc., "val loss-] 


可 以 用 这 些 数据 画 折 线 图 ， 直 观看 到 : 


e 模型 收敛 的 速度 (f E) 
e 模型 是 否 已 经 收敛 (稳定 性 ) 
e 模型 是 否 过 拟 合 (验证 数据 集 ) 


以 及 更 多 。 
15.2 可 视 化 Keras 模 型 训练 


收集 一 下 第 7 章 皮 马 人 糖尿 病 模 型 的 历史 数据 ， 绘 制 : 


1. 训练 和 验证 集 的 准确 度 
2. 训练 和 验证 集 的 损失 


# Visualize training history 

from keras.models import Sequential 

from keras.layers import Dense 

import matplotlib.pyplot as plt 

import numpy 

# fix random seed for reproducibility 

seed = 7 

numpy.random.seed(seed) 

# load pima indians dataset 

dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=" 
|") 

# split into input (X) and output (Y) variables 

X = dataset[:,0:8] 

Y = dataset[:,8] 

# create model 

model = Sequential() 

model.add(Dense(12, input_dim=8, init='uniform', activation='rel 
u')) 

model.add(Dense(8, init='uniform', activation='relu')) 
model.add(Dense(1, init='uniform', activation='sigmoid')) 

# Compile model 

model.compile(loss='binary_crossentropy', optimizer='adam', metr 
ics=['accuracy']) 

# Fit the model 

history = model.fit(X, Y, validation split-0.33, nb epoch-150, b 
atch size-10, verbose=0) # list all data in history 
print(history.history.keys()) 

4 summarize history for accuracy 
plt.plot(history.history['acc']) 
plt.plot(history.history['val acc']) 

plt.title('model accuracy!) 

plt.ylabel('accuracy') 

plt.xlabel('epoch' ) 

plt.legend(['train', 'test'], loc='upper left') plt.show() 

# Summarize history for loss plt.plot(history.history['loss']) p 
lt.plot(history.history['val loss']) plt.title('model loss') 
plt.ylabel('loss') 

plt.xlabel('epoch' ) 

plt.legend(['train', 'test'], loc='upper left') plt.show() 


图 像 如 下 。 最 后 几 轮 的 准确 率 还 在 上 升 ， 有 可 能 有 点 过 度 学 习 ; 但 是 两 个 数据 集 的 
效果 差不多 ， 应 该 没有 过 拟 合 。 
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model accuracy 
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从 损失 图 像 看 ， 两 个 数据 集 的 性 能 差不多 。 如 果 两 条 线 开 始 


终止 训练 。 


model loss 
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loss 
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15.3 总 结 
本 章 关 于 在 训练 时 绘制 图 像 。 总 结 一 下 : 
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e 如 何 看 历史 对 象 
e 如 何 绘制 历史 性 能 
e 如 何 绘制 两 个 数据 集 的 不 同性 能 


15.3.40 下 一 章 


Dropout 可 以 有 效 防止 过 拟 合 : 下 一 章 关于 这 个 技术 、 如 何在 Keras 中 实现 以 及 最 佳 


第 16 章 使 用 Dropout 正 则 化 防止 过 拟 合 


Dropout 虽 然 简单 ， 但 可 以 有 效 防止 过 拟 合 。 本 章 关 于 如 何在 Keras 中 使 用 
Dropout。 本 章 包括 : 


e dropout 的 原理 
e dropout 的 使 用 
e 在 隐 层 上 使 用 dropout 


我 们 开始 吧 。 


16.1 Dropout 正 则 化 


译 者 部 校 的 Srivastava 等 大 牛 在 2014 年 的 论文 《Dropout: A Simple Way to Prevent 
Neural Networks from Overfitting》 提 出 了 Dropout 正 则 化 。Dropout 的 意思 是 : 每 
次 训练 时 随机 忽略 一 部 分 神经 元 ， 这 些 神经 元 dropped-out 了 。 换 句 话 讲 ， 这 些 神经 
元 在 正 向 传播 时 对 下 游 的 启动 影响 被 忽略 ， 反 向 传播 时 也 不 会 更 新 权重 。 


神经 网 络 的 所 谓 “ 学 习 ?" 是 指 ， 让 各 个 神经 元 的 权重 符合 需要 的 特性 。 不 同 的 神经 元 
组 合 后 可 以 分 辨 数据 的 某 个 特征 。 每 个 神经 元 的 邻居 会 依赖 邻居 的 行为 组 成 的 特 
征 ， 如 果 过 度 依 赖 ， 就 会 造成 过 拟 合 。 如 果 每 次 随机 拿 走 一 部 分 神经 元 ， 那 么 剩 下 
的 神经 元 就 需要 补 上 消失 神经 元 的 功能 ， 整 个 网 络 变 成 很 多 独立 网 络 (对 同一 问题 
的 不 同 解决 方法 ) 的 合集 。 


Dropout 的 效果 是 ， 网 络 对 某 个 神经 元 的 权重 变化 更 不 敏感 ， 增 加 泛 化 能 力 ， 减 少 
过 拟 合 。 


16.2 在 Keras 中 使 用 Dropout 正 则 化 


Dropout 就 是 每 次 训练 按 概率 拿 走 一 部 分 神经 元 ， 只 在 训练 时 使 用 。 后 面 我 们 会 研 
究 其 他 的 用 法 。 


以 下 的 例子 是 声呐 数据 集 (第 11 章 ) ， 用 scikit-learn 进 行 10 折 交叉 检验 ， 这 样 可 以 
看 出 区 别 。 输 入 变量 有 60 个 ， 输 出 1 个 ， 数 据 经 过 正则 化 。 基 线 模型 有 2 个 隐 层 ， 第 
一 个 有 60 个 神经 元 ， 第 二 个 有 30 个 。 训 练 方法 是 随机 梯度 下 降 ， 学 习 率 和 动量 较 

低 。 下 面 是 基线 模型 的 代码 : 


import numpy 

import pandas 

from keras.models import Sequential 

from keras.layers import Dense 

from keras.layers import Dropout 

from keras.wrappers.scikit_learn import KerasClassifier 
from keras.constraints import maxnorm 

from keras.optimizers import SGD 

from sklearn.cross_validation import cross_val_score 
from sklearn.preprocessing import LabelEncoder 

from sklearn.cross_validation import StratifiedKFold 
from sklearn.preprocessing import StandardScaler 
from sklearn.grid_search import GridSearchCV 

from sklearn.pipeline import Pipeline 

# fix random seed for reproducibility 

seed = 7 

numpy.random.seed(seed) 

# load dataset 

dataframe = pandas.read csv("sonar.csv", header=None) 
dataset - dataframe.values 

# split into input (X) and output (Y) variables 

X = dataset[:,0:60].astype(float ) 

Y = dataset[:,60] 

4 encode class values as integers 

encoder - LabelEncoder() 

encoder .fit(Y) 

encoded Y - encoder.transform(Y) 


# baseline 
def create baseline(): 

# create model 

model - Sequential() 

model.add(Dense(60, input dim-60, init-'normal', activation= 
'relu')) model.add(Dense(30, init='normal', activation='relu')) 
model.add(Dense(1, init='normal', activation-'sigmoid')) 

# Compile model 

sgd = SGD(lr=0.01, momentum=0.8, decay=0.0, nesterov=False) 

model.compile(loss='binary_crossentropy', optimizer=sgd, met 
rics=['accuracy']) 

return model 
numpy . random. seed( seed) 
estimators = [] 
estimators.append(('standardize', StandardScaler())) 
estimators.append(('mlp', KerasClassifier(build_fn=create_baseli 
ne, nb_epoch=300, 

batch size-16, verbose=0))) 
pipeline - Pipeline(estimators) 
kfold = StratifiedKFold(y-encoded Y, n folds-10, shuffle-True, r 
andom state-seed) 
results = cross val score(pipeline, X, encoded Y, cv=kfold) 
print("Accuracy: %.2f%% (%.2f%%)" 96 (results.mean()*100, results 
-stdi() 100)) 


不 使 用 Dropout 的 准确 率 是 82%。 


Accuracy: 82.68% (3.90%) 


16.3 对 输入 层 使 用 Dropout 正 则 化 


可 以 对 表层 用 Dropout : 这 里 我 们 对 输入 层 (表层 ) 和 第 一 个 隐 层 用 Dropout > ret 
是 20%， 意 思 是 每 轮训 练 每 5 个 输入 随机 去 掉 1 个 变量 。 


原 论文 推荐 对 每 层 的 权重 加 限制 ， 保 证 模 不 超过 3 : 在 定义 全 连接 层 时 
用 w constraint 可 以 做 到 。 学 习 率 加 10 倍 ， 动 量 加 到 0.9， 原 论文 也 如 此 推荐 。 
对 上 面 的 模型 进行 修改 : 


# dropout in the input layer with weight constraint 
def create modeli(): 
# create model 
model - Sequential() 
model.add(Dropout(0.2, input_shape=(60, ))) 
model.add(Dense(60, init='normal', activation='relu', W_cons 
traint=maxnorm(3))) model.add(Dense(30, init='normal', activatio 
n='relu', W_constraint=maxnorm(3))) model.add(Dense(1, init='nor 
mal', activation='sigmoid')) 
# Compile model 
sgd = SGD(lr=0.1, momentum=0.9, decay=0.0, nesterov-False) 
model.compile(loss='binary_crossentropy', optimizer=sgd, met 
rics-['accuracy']) 
return model 
numpy.random.seed(seed) 
estimators - [] 
estimators.append(('standardize', StandardScaler())) 
estimators.append(('mlp', KerasClassifier(build fn-create model1 
, nb epoch-300, 
batch size-16, verbose=0))) 
pipeline - Pipeline(estimators) 
kfold = StratifiedKFold(y-encoded Y, n folds-10, shuffle-True, r 
andom state-seed) 
results = cross val score(pipeline, X, encoded Y, cv=kfold) 
print("Accuracy: %.2f%% (%.2f%%)" 96 (results.mean()*100, results 
.std()*100)) 


准确 率 提 升 到 86% : 


Accuracy: 86.04% (6.33%) 


16.4 对 隐 层 使 用 Dropout 正 则 化 


隐 层 当然 也 可 以 用 Dropout。 和 上 次 一 样 ， 这 次 对 两 个 隐 层 都 做 Dropout， 概 率 还 是 
20% : 


# dropout in hidden layers with weight constraint 
def create model2(): 


# create model 
model - Sequential() 
model.add(Dense(60, input dim-60, init-'normal', activation- 


"relu* 


W constraint-maxnorm(3))) 


model.add(Dropout(0.2)) 
model.add(Dense(30, init='normal', activation='relu', W_cons 


traint=maxnorm(3))) 


model.add(Dropout(0.2)) 

model.add(Dense(1, init='normal', activation='sigmoid' )) 

# Compile model 

sgd = SGD(lr=0.1, momentum=0.9, decay=0.0, nesterov=False) 
model.compile(loss='binary_crossentropy', optimizer=sgd, met 


rics=['accuracy']) 


return model 


numpy . random. seed( seed) 

estimators = [] 

estimators.append(('standardize', StandardScaler())) 
estimators.append(('mlp', KerasClassifier(build_fn=create_model2 
, nb epoch-300, 


batch size-16, verbose=0)) ) 


pipeline - Pipeline(estimators) 

kfold = StratifiedKFold(y-encoded Y, n folds-10, shuffle=True, r 
andom state-seed) 

results - cross val score(pipeline, X, encoded Y, cv-kfold) 
print("Accuracy: %.2f%% (%.2f%%)" 96 (results.mean()*100, results 


.std()*100)) 


然而 并 没有 什么 卯 月 ， 效 果 更 差 了 。 有 可 能 需要 多 训练 一 些 吧 。 


Accuracy: 82.16% (6.16%) 


16.5 使 用 Dropout 正 则 化 的 技巧 


原 论 文 对 很 多 标准 机 器 学 习 问 题 做 出 了 比较 ， 并 提出 了 下 列 建议 : 


1. 


Ol 


Dropout 概 率 不 要 太 高 ， 从 20% 开 始 ， 试 到 50% 。 太 低 的 概率 效果 不 好 ， 太 高 
有 可 能 欠 拟 合 。 


2， 网 络 要 大 。 更 大 的 网 络 学 习 到 不 同方 法 的 几率 更 大 。 
3. 
4. ŽI (PRAY) 和 动量 要 大 。 直 接 对 学 习 率 乘 10 或 100， 动 量 设 到 0.9 或 


每 层 都 做 Dropout， 包 括 输 入 层 。 效 果 更 好 。 


0.99 ° 


. 限制 每 层 的 权重 。 学 习 率 增 大 会 造成 权重 增 大 ， 把 每 层 的 模 限制 到 4 或 5 的 效果 


e Dropout 的 工作 原理 是 什么 
e 如 何 使 用 Dropout 
e Dropout 的 最 佳 实践 是 什么 


16.6.1 下 一 章 


在 训练 中 调节 学 习 举 会 提升 性 能 。 下 一 章 会 研究 不 同学 习 举 的 效果 ， 以 及 如 何在 
Keras 中 使 用 。 


第 17 章 学 习 速 度 设计 
神经 网 络 的 训练 是 很 困 难 的 优化 问题 。 传 统 的 随机 梯度 下 降 算 法 配合 设计 好 的 学 习 
速度 有 时 效果 更 好 。 本 章 包 括 : 


e 调整 学 习 速 度 的 的 原因 
e 如 何 使 用 按时 间 变 化 的 学 习 速 度 
e 如 何 使 用 按 训练 次 数 变化 的 学 习 速 


我 们 开始 吧 。 


ra 


17.1 学 习 速 度 
随机 梯度 下 降 算法 配合 设计 好 的 速度 可 以 增强 效果 ， 减 少 训练 时 间 : 也 叫 学 习 速 度 
退火 或 可 变 学 习 速 度 。 其 实 就 是 慢 慢 调整 学 习 速度 ， 而 传统 的 方法 中 学 习 速 度 不 


最 简单 的 调整 方法 是 学 习 速 度 随时 间 下 降 ， 一 开始 做 大 的 调整 加 速 训 练 ， 后 面 慢 慢 
微调 性 能 。 两 个 简单 的 方法 : 


° 根据 训练 轮 数 慢 慢 下 降 
° 到 某 个 点 下 降 到 某 个 值 


我 们 分 别 探 讨 一 下 。 


17.2 电离 层 分 类 数据 集 

本 章 使 用 电离 层 二 分 类 数据 集 ， 研 究 电离 层 u 分 类 g (好 ) 意味 着 电 
离 层 中 有 某 个 结构 ; b ( 坏 ) 代表 没有 ， 信 号 通过 了 电离 层 。 . 数据 有 34 个 属性 ，351 
个 数据 。 

10 折 检验 下 最 好 的 模型 可 以 达到 94~98% 的 准确 度 。 数 据 在 本 书 的 data 目 录 下 ， 也 
可 以 自行 下 载 ， 重 命名 为 ionosphere.csv 。 数 据 集 详情 请 参见 UCI 机 器 学 习 网 

站 。 

17.3 基于 时 间 的 学 习 速 度 调 度 


Keras 内 置 了 一 个 基于 时 间 的 学 习 速 度 调 度 器 : Keras 的 随机 梯度 下 降 sep X 
有 decay 参数 ， 按 下 面 的 公式 调整 速度 : 


LearnRate = LearnRate x (1 / 1 + decay x epoch) 
默认 值 是 0 : 不 起 作用 。 


LearningRate 
LearningRate 


0.1 * 1/(1 + 0.0 * 1) 
0.1 


de RK R RAF 1 ° 例如 0.001， 效 果 是 : 


Epoch Learning Rate 
aL (Gye, al 

2 0.0999000999 

3 0.0997006985 

4 0.09940249103 

5 0.09900646517 


到 100 轮 的 图 像 : 


0.1 


0.025 


0 25 50 75 100 
可 以 这 样 设 计 : 


Decay = LearningRate / Epochs 
Decay - 0.1 / 100 
Decay - 0.001 


下 面 的 代码 按时 间 减 少 学 习 速 度 。 神 经 网 络 有 1 个 隐 层 ，34 个 神经 元 ， 激 活 函 数 是 
整流 函数 。 输 出 层 是 1 个 神经 元 ， 激 活 函 数 是 S 型 函数 ， 输 出 一 个 概 举 。 学 习 兴 设 到 
0.1， 训 练 50 轮 ， 衰 减 率 0.002， 也 就 是 0.1/50。 学 习 速 度 调 整 一 般配 合 动量 使 用 : 
动量 设 成 0.8。 代 码 如 下 : 
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import pandas 

import numpy 

from keras.models import Sequential 

from keras.layers import Dense 

from keras.optimizers import SGD 

from sklearn.preprocessing import LabelEncoder 

# fix random seed for reproducibility 

seed = 7 

numpy.random.seed(seed) 

# load dataset 

dataframe = pandas.read_csv("ionosphere.csv", header=None) 

dataset = dataframe.values 

# split into input (X) and output (Y) variables 

X = dataset[:,0:34].astype(float) 

Y = dataset[:,34] 

# encode class values as integers 

encoder = LabelEncoder() 

encoder.fit(Y) 

Y = encoder.transform(Y) 

4 create model 

model - Sequential() 

model.add(Dense(34, input dim-34, init='normal', activation='rel 
u')) model.add(Dense(1, init='normal', activation-'sigmoid')) 

4 Compile model 

epochs - 50 

learning rate - 0.1 

decay rate - learning rate / epochs 

momentum = 0.8 

sgd = SGD(lr-learning rate, momentum=momentum, decay=decay_rate, 
nesterov=False) model.compile(loss='binary_crossentropy', optim 

izer=sgd, metrics-['accuracy']) 

# Fit the model 

model.fit(X, Y, validation_split=0.33, nb_epoch=epochs, batch si 

ze=28) 


训练 67%， 测 试 33% 的 数据 ， 准 确 度 达到 了 99.14%， 高 于 不 使 用 任何 优化 的 
95.69% : 


235/235 [============================== 
cc: 0.9830 - val loss: 

0.0732 - val_acc: 9914 
Epoch 46/50 
235/235 [============================== 
cc: 0,9830 - val loss: 

0.0867 - val acc: 9914 
Epoch 47/50 
235/235 [============================== 
cc: 0.9830 - val loss: 

0.0808 - val acc: 9914 
Epoch 48/50 
235/235 [============================== 
cc: 0.9872 - val loss: 

0.0653 - val_acc: 0.9828 
Epoch 49/50 
235/235 [============================== 
cc: 0.9830 - val loss: 

0.0821 - val_acc: 9914 
Epoch 50/50 
235/235 [============================== 
cc: 0,9872 - val loss: 

0.0739 - val acc: 9914 


17.3 基于 轮 数 的 学 习 速 度 调度 


也 可 以 固定 调度 : 到 某 个 轮 数 就 用 某 个 速度 ， 每 次 的 速度 是 上 次 的 一 半 。 例 如 


始 速度 0.1， 每 10 轮 降低 一 半 。 画 图 就 是 : 


0.1 
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Keras 的 LearningRateScheduler 作为 回调 参数 可 以 控制 学 习 速 度 ， 取 当前 的 轮 
数 ， 返 回应 有 的 速度 。 还 是 刚才 的 网 络 ， 加 入 一 个 step decay 函数 ， 生 成 如 下 


学 习 率 : 


LearnRate = InitialLearningRate x Droprate ^ floor((i+Epoch)/Epo 
chDrop) 


InitialLearningRate 是 初始 的 速度 ，DropRate 是 减速 频率 ，EpochDrop 是 降低 多 
P: 


import pandas 
import pandas 
import numpy 
import math 
from keras.models import Sequential 
from keras.layers import Dense 
from keras.optimizers import SGD 
from sklearn.preprocessing import LabelEncoder 
from keras.callbacks import LearningRateScheduler 
# learning rate schedule 
def step_decay(epoch): 
initial_lrate = 0.1 
drop = 0.5 
epochs_drop = 10.0 
lrate = initial lrate * math.pow(drop, math.floor((1+epoch)/ep 
ochs. drop)) 
return lrate 
4 fix random seed for reproducibility 
seed - 7 
numpy.random.seed(seed) 
4 load dataset 
dataframe = pandas.read csv("../data/ionosphere.csv", header=None 
) 
dataset - dataframe.values 
4 split into input (X) and output (Y) variables 
X = dataset[:,0:34].astype(float ) 
Y - dataset[:,34] 
# encode class values as integers 
encoder = LabelEncoder() 
encoder.fit(Y) 
Y = encoder.transform(Y) 
4 create model 
model - Sequential() 
model.add(Dense(34, input dim-34, init='normal', activation='rel 
u')) 
model.add(Dense(1, init='normal', activation='sigmoid')) 
# Compile model 
sgd = SGD(1r=0.0, momentum=0.9, decay=0.0, nesterov-False) model 
.compile(loss='binary_crossentropy', optimizer=sgd, metrics=['ac 
curacy']) 
4 learning schedule callback 
lrate - LearningRateScheduler(step decay) 
callbacks list = [lrate] 
4 Fit the model 
model.fit(X, Y, validation split-0.33, nb epoch-50, batch size-28 
, callbacks-callbacks list) 


| Seay 





效果 也 是 99.14%， 比 什么 都 不 做 好 : 


Epoch 45/50 


235/235 [============================== Os loss: 0546 
cc: 0.9830 = val loss: 

0.0705 - val_acc: 9914 
Epoch 46/50 
235/235 [============================== os loss: .0542 
cc: 0,9830 - val loss: 

0.0676 — val_acc: 9914 
Epoch 47/50 
235/235 [============================== os loss: . 0538 
cc: 0.9830 - val loss: 

0:0668 - val_acc: 9914 
Epoch 48/50 
235/235 [============================== os loss: 0539 
cc: 0.9830 - val loss: 

0.0708 - val_acc: 9914 
Epoch 49/50 
235/235 [============================== os loss: .0539 
cc: 0.9830 - val loss: 

0.0674 - val acc: 9914 
Epoch 50/50 
235/235 [============================== Os loss: .0531 


cc: 0.9830 - val loss: 
0.0694 - val acc: 0.9914 


5 调整 学 习 速 度 的 技巧 


些 技巧 可 以 帮助 调 参 : 
1. 增加 初始 学 习 速 度 。 因 为 速度 后 面 会 降低 ， 一 开始 速度 快 点 可 以 加 速 收 敛 。 
2. 动量 要 大 。 uU S E Güte DM dc AF o an T VA Hk AE ELA ° 
3. 多 试验 。 这 个 问题 没有 定论 ， 需 尝试 。 也 试 试 指数 下 降 和 什么 都 不 做 。 
17.6 š 2 
本 章 关 于 调整 学 习 速 度 。 总 结 一 下 : 


e 调整 学 习 速 度 为 什么 有 效 
° 如 何在 Keras 使 用 基于 时 间 的 学 习 速 度 下 降 
e 如 何 自己 编写 下 降 速 度 函 数 


17.6.1 下 一 章 


第 四 章 到 此 结束 ， 包 括 Keras 的 一 些 高 级 函数 和 调 参 的 高 级 方法 。 下 一 章 研 究 卷 积 
神经 网 络 (CNN) ， 在 图 片 和 自然 语言 处 理 上 尤为 有 效 。 


大 大 i NC J2 ` 
第 五 部 分 卷 积 神经 网 络 


